(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111533241.9
(22)申请日 2021.12.15
(71)申请人 上海电力大 学
地址 200090 上海市杨 浦区平凉 路2103号
(72)发明人 范宏 于伟南 彭瑞
(74)专利代理 机构 上海申汇 专利代理有限公司
31001
代理人 翁若莹 徐颖
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 10/04(2012.01)
G06Q 50/06(2012.01)
(54)发明名称
电氢互补的园区多楼宇供能系统及其协调
调度方法
(57)摘要
本发明涉及一种电氢互补的园区多楼宇供
能系统及其协调调度方法, 根据实际园区工程,
分析园区内部能量流、 信息流和控制流的运行机
理, 按照不同楼宇的可靠性和经济性要求进行分
类, 建立含 氢储能的电氢互补的园区多楼宇供能
系统; 对供电系统中能源与负载分别建模, 并应
用在电氢互补的园区多楼宇供能系统的调度模
型当中; 建立园区多楼宇供能系统中多个楼宇互
联的交互机制, 在多智能体强化学习算法的支持
下, 根据楼宇的历史数据, 以 “离线集中学习, 在
线分布执行 ”的方式, 实时供能调度。 利用电氢互
补特性和楼 宇间的电能共享, 构建碳中和园区的
运行结构, 在多智 能体强化学习算法的支持下,
各楼宇自我优化过程中实现整体最优, 避免了维
数灾和次优动作的选择。
权利要求书2页 说明书11页 附图8页
CN 114331059 A
2022.04.12
CN 114331059 A
1.一种电氢互补的园区多楼宇供能系统, 其特征在于, 在园区中, 每栋楼宇属于不同主
体, 对不可断电的楼宇配置一个含氢储能系统; 所有楼宇共同构成了一个整体, 楼宇之 间由
一条母线连接, 楼 宇之间存在电力共享; 每栋楼 宇都分配了一个智能体, 智能体与 楼宇设备
的控制器之间有通信线路, 用于获取传感器测 量的实时状态数据; 同时实时状态数据被所
属智能体储存起来, 每隔一段时间经过通信线路传输给其他楼宇的智能体, 用于智能体的
离线学习; 智能体根据实时数据, 在线确定楼宇内部可控组件的最佳参考值并传输给相应
组件的控制器, 控制器控制通过控制换流器和智能开关使设备跟踪最佳参 考值。
2.根据权利要求1所述电氢互补的园区多楼宇供能系统, 其特征在于, 所述楼宇组成的
园区通过由园区管理器控制的公共连接点连接到配电网, 每栋楼宇根据自身负荷配备不同
容量的光伏面板、 风电机组、 柴油发电机和氢储能系统。
3.根据权利要求1所述电氢互补的园区多楼宇供能系统 的协调调度方法, 其特征在于,
具体包括如下步骤:
1)根据实际园区工程, 分析园区内部能量流、 信息流和控制流的运行机理, 按照不同楼
宇的可靠性和经济性要求进行分类, 建立含氢储能的电氢互补的园区多楼宇供能系统;
2)对供电系 统中能源与负载分别建模, 其中氢储能系统电解、 加氢、 脱氢、 燃烧四个环
节, 分别建立了运行模型以及储氢罐 的荷载状态函数, 并将其作为约束条件应用在电氢互
补的园区多楼宇供能系统的调度模型当中;
3)建立园区多楼宇供能系统中多个楼宇互联的交互机制, 在多智能体强化学习算法的
支持下, 根据楼宇的历史数据, 以 “离线集中学习, 在线分布执行 ”的方式, 实现了园区的实
时供能调度。
4.根据权利要求3所述电氢互补的园区多楼宇供能系统 的协调调度方法, 其特征在于,
所述步骤2)具体包括以下步骤:
2.1)针对建立的碳中和园区多楼宇 运行环境, 对其中的能源与负载建模;
2.2)根据园区供需量 不同形成调度策略:
2.2.1)各楼宇发电满足自身负荷需求后功率均有剩余: 若此 时可再生能源出力有剩余
功率, 则优先利用氢储能系统将剩余能量储存起来, 若还有剩余功 率, 则将其出售给配电网
获取收益;
2.2.2)各楼宇发电均 不能满足自身负荷需求: 此时优先调用楼宇自身氢储能系统储存
的能量, 直至 达到储氢罐的容量下限或燃料电池的最大放电功率;
2.2.3)部分楼宇发电满足自身负荷需求后功率有剩余, 部分楼宇发电不能满足自身负
荷需求: 秉承可再生能源发电就地消纳的原则, 缺电楼宇优先从有剩余功率的楼宇购电, 当
前者剩余功率小于后者功率缺额时, 缺额功率由自身储能电池供给, 直至储能电池容量下
限, 若仍不能满足用电需求, 则缺额功 率从配电网中获取; 当前者剩余功率大于后者负荷需
求时, 峰时段多余功率卖给配电网或平时段、 谷时段 先给自身储能电池充电再卖给配电网;
2.3)根据整个园区总运行成本最小化的优化目标, 建立园区优化调度模型。
5.根据权利要求4所述电氢互补的园区多楼宇供能系统 的协调调度方法, 其特征在于,
所述步骤3)具体步骤为:
3.1)马尔可 夫决策过程;
多智能体深度强化学习算法是以马尔可夫 决策过程为基础的随机博弈架构, 用高维元权 利 要 求 书 1/2 页
2
CN 114331059 A
2组<S, A, R, P, γ>表示, 其中, 状态向量组S ={s1,s2,…,si,…,sI}表征各楼宇调度智能体所
处环境的状态集合, I为智能体的数量, 每栋楼宇对自身设备状态 时完全感知的, 但不能感
知到其他楼宇的设备状态, 即智能体i的观测空间oi=si; 联合动作A={a1,a2,…,ai,…,aI}
表征各智能体的动作集合; 回报R={r1,r2,…,ri,…,rI}表征各智能体在当前状态执行动
作得到的奖励S ×A×S→R; 状态转移矩阵P表示智能体执行当前动作后环境由当前状态转
移到下一状态的概率分布; 累计折扣回报的衰减系数γ表征远期回报对当前动作的影响程
度;
楼宇的观测空间包括负荷需求、 上一时段储氢罐的荷能状态、 风电、 光伏的输出功率和
当前所处调度时段;
3.2)离线集中训练;
每个智能体都是一个行动者 ‑评论家架构, 行动者和评论家 的策略网络和目标网络均
使用深度Q网络逼近最优策略和价值的实际值, 解决了动作和价值离散而不能覆盖所有的
可能值的问题;
3.3)在线分布执行: 园区执行动作At并且获得当前时段 的奖励Rt和下一时段 的环境状
态St+1, 然后将St+1作为下一时段的智能体输入并制定该时段的决策, 直到得到全部时段的
调度动作。权 利 要 求 书 2/2 页
3
CN 114331059 A
3
专利 电氢互补的园区多楼宇供能系统及其协调调度方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:44:27上传分享