专利 电氢互补的园区多楼宇供能系统及其协调调度方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111533241.9 (22)申请日 2021.12.15 (71)申请人上海电力大学地址 200090 上海市杨浦区平凉路2103号 (72)发明人范宏　于伟南　彭瑞　 (74)专利代理机构上海申汇专利代理有限公司 31001 代理人翁若莹　徐颖 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/04(2012.01) G06Q 50/06(2012.01) (54)发明名称电氢互补的园区多楼宇供能系统及其协调调度方法 (57)摘要本发明涉及一种电氢互补的园区多楼宇供能系统及其协调调度方法，根据实际园区工程，分析园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立含氢储能的电氢互补的园区多楼宇供能系统；对供电系统中能源与负载分别建模，并应用在电氢互补的园区多楼宇供能系统的调度模型当中；建立园区多楼宇供能系统中多个楼宇互联的交互机制，在多智能体强化学习算法的支持下，根据楼宇的历史数据，以 “离线集中学习，在线分布执行 ”的方式，实时供能调度。利用电氢互补特性和楼宇间的电能共享，构建碳中和园区的运行结构，在多智能体强化学习算法的支持下，各楼宇自我优化过程中实现整体最优，避免了维数灾和次优动作的选择。权利要求书2页说明书11页附图8页 CN 114331059 A 2022.04.12 CN 114331059 A 1.一种电氢互补的园区多楼宇供能系统，其特征在于，在园区中，每栋楼宇属于不同主体，对不可断电的楼宇配置一个含氢储能系统；所有楼宇共同构成了一个整体，楼宇之间由一条母线连接，楼宇之间存在电力共享；每栋楼宇都分配了一个智能体，智能体与楼宇设备的控制器之间有通信线路，用于获取传感器测量的实时状态数据；同时实时状态数据被所属智能体储存起来，每隔一段时间经过通信线路传输给其他楼宇的智能体，用于智能体的离线学习；智能体根据实时数据，在线确定楼宇内部可控组件的最佳参考值并传输给相应组件的控制器，控制器控制通过控制换流器和智能开关使设备跟踪最佳参考值。 2.根据权利要求1所述电氢互补的园区多楼宇供能系统，其特征在于，所述楼宇组成的园区通过由园区管理器控制的公共连接点连接到配电网，每栋楼宇根据自身负荷配备不同容量的光伏面板、风电机组、柴油发电机和氢储能系统。 3.根据权利要求1所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，具体包括如下步骤： 1)根据实际园区工程，分析园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立含氢储能的电氢互补的园区多楼宇供能系统； 2)对供电系统中能源与负载分别建模，其中氢储能系统电解、加氢、脱氢、燃烧四个环节，分别建立了运行模型以及储氢罐的荷载状态函数，并将其作为约束条件应用在电氢互补的园区多楼宇供能系统的调度模型当中； 3)建立园区多楼宇供能系统中多个楼宇互联的交互机制，在多智能体强化学习算法的支持下，根据楼宇的历史数据，以 “离线集中学习，在线分布执行 ”的方式，实现了园区的实时供能调度。 4.根据权利要求3所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，所述步骤2)具体包括以下步骤： 2.1)针对建立的碳中和园区多楼宇运行环境，对其中的能源与负载建模； 2.2)根据园区供需量不同形成调度策略： 2.2.1)各楼宇发电满足自身负荷需求后功率均有剩余：若此时可再生能源出力有剩余功率，则优先利用氢储能系统将剩余能量储存起来，若还有剩余功率，则将其出售给配电网获取收益； 2.2.2)各楼宇发电均不能满足自身负荷需求：此时优先调用楼宇自身氢储能系统储存的能量，直至达到储氢罐的容量下限或燃料电池的最大放电功率； 2.2.3)部分楼宇发电满足自身负荷需求后功率有剩余，部分楼宇发电不能满足自身负荷需求：秉承可再生能源发电就地消纳的原则，缺电楼宇优先从有剩余功率的楼宇购电，当前者剩余功率小于后者功率缺额时，缺额功率由自身储能电池供给，直至储能电池容量下限，若仍不能满足用电需求，则缺额功率从配电网中获取；当前者剩余功率大于后者负荷需求时，峰时段多余功率卖给配电网或平时段、谷时段先给自身储能电池充电再卖给配电网； 2.3)根据整个园区总运行成本最小化的优化目标，建立园区优化调度模型。 5.根据权利要求4所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，所述步骤3)具体步骤为： 3.1)马尔可夫决策过程；多智能体深度强化学习算法是以马尔可夫决策过程为基础的随机博弈架构，用高维元权　利　要　求　书 1/2 页 2 CN 114331059 A 2组<S， A， R， P， γ>表示，其中，状态向量组S ＝{s1,s2,…,si,…,sI}表征各楼宇调度智能体所处环境的状态集合， I为智能体的数量，每栋楼宇对自身设备状态时完全感知的，但不能感知到其他楼宇的设备状态，即智能体i的观测空间oi＝si；联合动作A＝{a1,a2,…,ai,…,aI} 表征各智能体的动作集合；回报R＝{r1,r2,…,ri,…,rI}表征各智能体在当前状态执行动作得到的奖励S ×A×S→R；状态转移矩阵P表示智能体执行当前动作后环境由当前状态转移到下一状态的概率分布；累计折扣回报的衰减系数γ表征远期回报对当前动作的影响程度；楼宇的观测空间包括负荷需求、上一时段储氢罐的荷能状态、风电、光伏的输出功率和当前所处调度时段； 3.2)离线集中训练；每个智能体都是一个行动者 ‑评论家架构，行动者和评论家的策略网络和目标网络均使用深度Q网络逼近最优策略和价值的实际值，解决了动作和价值离散而不能覆盖所有的可能值的问题； 3.3)在线分布执行：园区执行动作At并且获得当前时段的奖励Rt和下一时段的环境状态St+1，然后将St+1作为下一时段的智能体输入并制定该时段的决策，直到得到全部时段的调度动作。权　利　要　求　书 2/2 页 3 CN 114331059 A 3

专利 电氢互补的园区多楼宇供能系统及其协调调度方法

专利电氢互补的园区多楼宇供能系统及其协调调度方法