专利 一种基于Actor Critic的动态装配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210786366.0 (22)申请日 2022.07.04 (71)申请人中国科学院沈阳自动化研究所地址 110016 辽宁省沈阳市沈河区南塔街 114号 (72)发明人姜勇　王洪光　王竣禾　 (74)专利代理机构沈阳科苑专利商标代理有限公司 210 02 专利代理师周宇 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于Actor Critic的动态装配方法 (57)摘要本发明涉及一种在具有柔索特性的输电线路上更换绝缘子过程中，推销工具与销孔之间的一种基于Actor Critic的动态装配方法。包括：将最近K个时刻的接触力[Fx,Fy,Fz] 组成的序列传入LSTM网络，并将LS TM网络的输出作为强化学习所需的状态。根据轴体运动趋势定义每个时刻的奖励，并在序列折扣因子的作用下得到模型在每一步的奖励。计算损失函数反向传播优化调整深度强化学习网络的参数，输出机械臂末端在基坐标系下三轴方向的具体位移动作值。权利要求书1页说明书3页附图1页 CN 115070767 A 2022.09.20 CN 115070767 A 1.一种基于Actor Critic的动态装配方法，其特征在于，包括如下步骤：基于LSTM、 critic网络和actor网络建立深度强化学习网络；采集当前时刻的最近邻K个时刻的接触力序列,并将其定义为强化学习网络的输入和状态量；定义深度强化学习网络输出为二维的均值 μ和方差σ 向量；通过对均值和方差代表的高斯分布进行采样，获取机械臂末端在基坐标系下x轴和y轴方向的具体位移动作值；通过轴体运动趋势定义每个时刻的初始奖励rt，结合序列折扣因子获取每时刻的更新奖励Rt；根据输出状态的价值v、更新奖励Rt和均值μ和方差σ 计算损失函数，从而反向传播优化调整深度强化学习网络的参数；实时采集接触力序列，输入上述优化后的深度强化学习网络，自动输出机械臂末端在基坐标系下x轴和y轴方向的具体位移动作值；根据x轴、 y轴和z轴方向的具体位移动作值控制机械臂末端移动，使得机械臂末端的推销工具将销孔中的定位销推出。 2.根据权利要求1所述的一种基于Actor Critic的动态装配方法，其特征在于，所述深度强化学习网络包括： 3个LSTM单元组成的LSTM网络， LSTM网络的输出作为critic网络和 actor网络的输入， critic网络和actor网络采用全连接神经网络形式搭建；其中， critic网络输出状态的价值v； actor网络输出动作的均值 μ和方差σ 。 3.根据权利要求1所述的一种基于Actor Critic的动态装配方法，其特征在于，所述每个时刻的初始奖励为：定义接触力阈值f_contact，当轴孔之间接触力f中最大值大于阈值时，判断为发生接触，将前后两次接触力之差的绝对值取负号后作为t时刻奖励值，否则以常数c作为t时刻奖励值； 4.根据权利要求1所述的一种基于Actor Critic的动态装配方法，其特征在于，所述更新奖励Rt为：按照时间顺序对各个时刻接触力对应的奖励进行加权； Rt＝rt+α rt‑1+...+αk‑1rt‑k+1 其中， α……αk‑1为加权系数。 5.根据权利要求1所述的一种基于Actor Critic的动态装配方法，其特征在于，所述接触力序列为机械臂末端安装的力传感器采集的反馈值；接触力为[Fx,Fy,Fz]。权　利　要　求　书 1/1 页 2 CN 115070767 A 2一种基于Actor Critic的动态装配方法技术领域 [0001]本发明涉及动态装配领域，具体地说是一种基于Actor Critic的动态装配方法。背景技术 [0002]带电绝缘子更换机器人在工作时，会由绝缘斗臂车运送到待更换的绝缘子上方，然后开始绝缘子的更换工作。在更换绝缘子之前，需要将位于输电线路上的绝缘子串中间的绝缘销推出，推销动作由末端带有专用推销工具的机械臂完成。输电线路上的两片绝缘子之间通过绝缘销固定，机器人在视觉系统的引导下，将专用推销工具移动到销孔上方。当多刚体机器人与位于柔性输电线路上的销孔发生接触时，输电线路的位置会因受到挤压发生动态变化，进而改变销孔与机器人底座的相对位置关系，以此引发的动态冲击力将导致接触力动态变化。因此，此装配任务可以被看作为动态装配任务。面对动态装配任务，传统的柔顺控制方法往往无法发挥其作用。发明内容 [0003]本发明解决的是在具有柔索特征的输电线路上进行绝缘子更换操作过程中，涉及到的推销工具与销孔之间装配的动态装配问题。通过使用深度强化学习框架Actor Critic，在此基础上设计基于运动趋势的奖励，并定义序列折扣因子对单个时刻的奖励进行加权，最后基于损失函数进行反向传播优化网络参数。此方法解决了此动态装配任务。 [0004]本发明是一种基于Actor Critic的动态装配方法，包括如下步骤： [0005]一种基于Actor Critic的动态装配方法，包括如下步骤： [0006]基于LSTM、 critic网络和actor网络建立深度强化学习网络； [0007]采集当前时刻的最近邻K个时刻的接触力序列,并将其定义为强化学习网络的输入和状态量； [0008]定义深度强化学习网络输出为二维的均值 μ和方差σ 向量；通过对均值和方差代表的高斯分布进行采样，获取机械臂末端在基坐标系下x轴和y轴方向的具体位移动作值； [0009]通过轴体运动趋势定义每个时刻的初始奖励rt，结合序列折扣因子获取每时刻的更新奖励Rt； [0010]根据输出状态的价值v、更新奖励Rt和均值 μ和方差σ 计算损失函数，从而反向传播优化调整深度强化学习网络的参数； [0011]实时采集接触力序列，输入上述优化后的深度强化学习网络，自动输出机械臂末端在基坐标系下x轴和y轴方向的具体位移动作值； [0012]根据x轴、 y轴和z轴方向的具体位移动作值控制机械臂末端移动，使得机械臂末端的推销工具将销孔中的定位销推出。 [0013]所述深度强化学习网络包括： 3个LSTM单元组成的LSTM网络， LSTM网络的输出作为 critic网络和actor 网络的输入， critic网络和actor网络采用全连接神经网络形式搭建；其中， critic网络输出状态的价值v； actor网络输出动作的均值 μ和方差σ 。说　明　书 1/3 页 3 CN 115070767 A 3

专利 一种基于Actor Critic的动态装配方法

专利一种基于Actor Critic的动态装配方法