(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111604993.X
(22)申请日 2021.12.24
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
申请人 国网江西省电力有限公司
(72)发明人 谢海鹏 汤凌峰 祝昊 李更丰
别朝红
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
代理人 李鹏威
(51)Int.Cl.
G06F 30/18(2020.01)
G06F 30/27(2020.01)
G06F 111/02(2020.01)
G06F 113/04(2020.01)
(54)发明名称
基于强化学习的灾后电-路协同修复方法、
系统与设备
(57)摘要
本发明公开了基于强化学习的灾后电 ‑路协
同修复方法、 系统与设备, 通过配电网与城市交
通网络的网络拓扑、 故障信息以及维修站位置和
维修队位置, 构建时序马尔可夫决策网络, 根据
电‑路联合系统当前所处状态以及可采取的动作
集合, 以蒙特卡洛树搜索方法根据时序马尔可夫
决策网络对维修队的修复对象进行选择, 形成以
电‑路联合系统的状态为样本、 以当前状态下的
最佳修复对象为样本标签的数据集, 构建以电 ‑
路联合系统的状态为输入、 以电 ‑路联合系统的
下一步的修复对象为输出的快速决策网络, 本发
明考虑了电 ‑路联合系统修复计划存在的矛盾性
与协同性, 构建的强化学习算法有助于提高两者
的协同修复效率, 增强电 ‑路联合系统对自然灾
害的抵御能力。
权利要求书2页 说明书10页 附图3页
CN 114239206 A
2022.03.25
CN 114239206 A
1.一种基于强化学习的灾后电 ‑路协同修复方法, 其特 征在于, 包括以下步骤
S1, 基于配电网与城市交通网络的网络拓扑、 故障信息以及维修站位置和维修队位置,
构建时序 马尔可夫决策网络;
S2, 根据电 ‑路联合系统当前所处状态以及可采取的动作集合, 采用蒙特卡洛树搜索方
法根据时序马尔可夫决策网络对维修队下一步的修复对 象进行选择, 形成以电 ‑路联合系
统的状态为样本、 以当前状态下的最佳修复对象为样本标签的数据集;
S3, 构建以电 ‑路联合系统的状态为输入、 以电 ‑路联合系统的下一步的修复对象为输
出的快速决策网络, 采用S2获取的数据集对快速决策网络进行优化, 最小化快速决策网络
的动作选择误差;
S4, 采用优化后的快速决策网络, 根据自然灾害下配电网与交通网络的故障数据生成
协同修复计划。
2.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
时序马尔可夫决策网络包括状态空间、 动作空间、 状态转移和奖励函数四元组。
3.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
从配电网、 城市交通网络和维修队三个层次收集数据信息进 行拼接, 得到状态空间S的表 示
如下:
其中, e1,e2,L,en分别表示各输电线路的运行状态, n为配电网输电线路总数; r1,r2,L,
rm分别表示各交通道路的通行状态, m为交通网络道路总数;
共计n个0 ‑1变量中
仅有一个变量
表示电力部门维修队的当前位置在输电线路i处;
共计m个
0‑1变量中仅有一个 变量
表示交通部门维修队的当前位置在交通道路j处。
4.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
采用集合E(t)和集合 R(t)分别表 示修复后恢复正常的线路编号集合和道路编号集合, 动作
空间A(t)的表示如下:
变量
和
分别表示线路i和道路j的编号。
5.根据权利要求3所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
当故障线路、 故障道路经修复后恢复正常运行状态, 或维修队位置发生变化时, 对状态空间
S中的0‑1变量进行 更新。
6.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
以社会效益损失值的负数作为每一 步修复计划的奖励值, 奖励函数r(s,a)的表达式如下:
权 利 要 求 书 1/2 页
2
CN 114239206 A
2其中,
是配电网节点总数,
是在状态s下节点i的失负荷功率,
是在状态s下
前往故障线路a时所需的通行时间,
是修复线路为a时所需的修复时间;
是在状
态s下前往故障道路a时所需的通行时间,
是修复道路为a时所需的修复时间, La是道
路a的长度,Ce为单位电量产生的社会 效益, Cr为单位长度道路在单位时间内产生的社会 效
益。
7.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
将数据集中各样本对应的最优动作进 行独热编 码作为样本标签, 并使用交叉熵函数作为损
失函数对快速决策网络进行训练, 交叉熵函数的表达式如下:
式中, B表示批大小, |A(t)|表示可选择的动作集合A(t)中的动作个数, yb,a表示第b个
样本标签在动作a的独热编码值, pb,a表示快速 决策网络以第b个样本为输入 时, 动作a被选
择的概率值。
8.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法, 其特征在于,
根据自然灾害下配电网和交通网络的网络拓扑、 故障信息, 以及维修站的位置和维修队的
当前位置, 共同构成电 ‑路联合系统的初始状态, 将该初始状态输入至优化后的快速决策网
络, 决策下一步的修复对象, 并根据决策 结果和实时修复情况 更新电‑路联合系统的状态。
9.一种基于强化学习的灾后电 ‑路协同修复系统, 其特 征在于, 包括:
初始网络模块, 用于根据配电网与城市交通网络的网络拓扑、 故障信息以及维修站位
置和维修队位置, 构建时序 马尔可夫决策网络;
数据训练模块, 用于根据电 ‑路联合系统当前所处状态以及可采取的动作集合, 采用蒙
特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进 行选择, 形成
以电‑路联合系统的状态为样本、 以当前状态下的最佳修复对象为样本标签的数据集;
网络优化模块, 用于以电 ‑路联合系统的状态为输入、 以电 ‑路联合系统的下一步的修
复对象为输出的快速决策网络, 采用数据训练模块得到的数据集对快速决策网络进行优
化, 最小化快速决策网络的动作选择误差;
修复决策模块, 采用优化后的快速决策网络, 根据自然灾害下配电网与交通网络的故
障数据生成协同修复计划。
10.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8任
一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114239206 A
3
专利 基于强化学习的灾后电-路协同修复方法、系统与设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:20:12上传分享