专利 基于强化学习的灾后电-路协同修复方法、系统与设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111604993.X (22)申请日 2021.12.24 (71)申请人西安交通大学地址 710049 陕西省西安市咸宁西路28号申请人国网江西省电力有限公司 (72)发明人谢海鹏　汤凌峰　祝昊　李更丰　别朝红　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 代理人李鹏威 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06F 111/02(2020.01) G06F 113/04(2020.01) (54)发明名称基于强化学习的灾后电-路协同修复方法、系统与设备 (57)摘要本发明公开了基于强化学习的灾后电 ‑路协同修复方法、系统与设备，通过配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置，构建时序马尔可夫决策网络，根据电‑路联合系统当前所处状态以及可采取的动作集合，以蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队的修复对象进行选择，形成以电‑路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集，构建以电 ‑ 路联合系统的状态为输入、以电 ‑路联合系统的下一步的修复对象为输出的快速决策网络，本发明考虑了电 ‑路联合系统修复计划存在的矛盾性与协同性，构建的强化学习算法有助于提高两者的协同修复效率，增强电 ‑路联合系统对自然灾害的抵御能力。权利要求书2页说明书10页附图3页 CN 114239206 A 2022.03.25 CN 114239206 A 1.一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，包括以下步骤 S1，基于配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置，构建时序马尔可夫决策网络； S2，根据电 ‑路联合系统当前所处状态以及可采取的动作集合，采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择，形成以电 ‑路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集； S3，构建以电 ‑路联合系统的状态为输入、以电 ‑路联合系统的下一步的修复对象为输出的快速决策网络，采用S2获取的数据集对快速决策网络进行优化，最小化快速决策网络的动作选择误差； S4，采用优化后的快速决策网络，根据自然灾害下配电网与交通网络的故障数据生成协同修复计划。 2.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，时序马尔可夫决策网络包括状态空间、动作空间、状态转移和奖励函数四元组。 3.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，从配电网、城市交通网络和维修队三个层次收集数据信息进行拼接，得到状态空间S的表示如下：其中， e1,e2,L,en分别表示各输电线路的运行状态， n为配电网输电线路总数； r1,r2,L, rm分别表示各交通道路的通行状态， m为交通网络道路总数；共计n个0 ‑1变量中仅有一个变量表示电力部门维修队的当前位置在输电线路i处；共计m个 0‑1变量中仅有一个变量表示交通部门维修队的当前位置在交通道路j处。 4.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，采用集合E(t)和集合 R(t)分别表示修复后恢复正常的线路编号集合和道路编号集合，动作空间A(t)的表示如下：变量和分别表示线路i和道路j的编号。 5.根据权利要求3所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，当故障线路、故障道路经修复后恢复正常运行状态，或维修队位置发生变化时，对状态空间 S中的0‑1变量进行更新。 6.根据权利要求2所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，以社会效益损失值的负数作为每一步修复计划的奖励值，奖励函数r(s,a)的表达式如下：权　利　要　求　书 1/2 页 2 CN 114239206 A 2其中，是配电网节点总数，是在状态s下节点i的失负荷功率，是在状态s下前往故障线路a时所需的通行时间，是修复线路为a时所需的修复时间；是在状态s下前往故障道路a时所需的通行时间，是修复道路为a时所需的修复时间， La是道路a的长度,Ce为单位电量产生的社会效益， Cr为单位长度道路在单位时间内产生的社会效益。 7.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，将数据集中各样本对应的最优动作进行独热编码作为样本标签，并使用交叉熵函数作为损失函数对快速决策网络进行训练，交叉熵函数的表达式如下：式中， B表示批大小， |A(t)|表示可选择的动作集合A(t)中的动作个数， yb,a表示第b个样本标签在动作a的独热编码值， pb,a表示快速决策网络以第b个样本为输入时，动作a被选择的概率值。 8.根据权利要求1所述的一种基于强化学习的灾后电 ‑路协同修复方法，其特征在于，根据自然灾害下配电网和交通网络的网络拓扑、故障信息，以及维修站的位置和维修队的当前位置，共同构成电 ‑路联合系统的初始状态，将该初始状态输入至优化后的快速决策网络，决策下一步的修复对象，并根据决策结果和实时修复情况更新电‑路联合系统的状态。 9.一种基于强化学习的灾后电 ‑路协同修复系统，其特征在于，包括：初始网络模块，用于根据配电网与城市交通网络的网络拓扑、故障信息以及维修站位置和维修队位置，构建时序马尔可夫决策网络；数据训练模块，用于根据电 ‑路联合系统当前所处状态以及可采取的动作集合，采用蒙特卡洛树搜索方法根据时序马尔可夫决策网络对维修队下一步的修复对象进行选择，形成以电‑路联合系统的状态为样本、以当前状态下的最佳修复对象为样本标签的数据集；网络优化模块，用于以电 ‑路联合系统的状态为输入、以电 ‑路联合系统的下一步的修复对象为输出的快速决策网络，采用数据训练模块得到的数据集对快速决策网络进行优化，最小化快速决策网络的动作选择误差；修复决策模块，采用优化后的快速决策网络，根据自然灾害下配电网与交通网络的故障数据生成协同修复计划。 10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114239206 A 3

专利 基于强化学习的灾后电-路协同修复方法、系统与设备

专利基于强化学习的灾后电-路协同修复方法、系统与设备