(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210786366.0
(22)申请日 2022.07.04
(71)申请人 中国科学院沈阳自动化研究所
地址 110016 辽宁省沈阳市沈河区南塔街
114号
(72)发明人 姜勇 王洪光 王竣禾
(74)专利代理 机构 沈阳科苑专利商标代理有限
公司 210 02
专利代理师 周宇
(51)Int.Cl.
B25J 9/16(2006.01)
(54)发明名称
一种基于Actor Critic的动态装配方法
(57)摘要
本发明涉及一种在具有柔索特性的输电线
路上更换绝缘子过程中, 推销工具与销孔之间的
一种基于Actor Critic的动态装配方法。 包括:
将最近K个时刻的接触力[Fx,Fy,Fz] 组成的序列
传入LSTM网络, 并将LS TM网络的输 出作为强化学
习所需的状态。 根据轴体运动趋势定义每个时刻
的奖励, 并在序列折扣因子的作用下得到模型在
每一步的奖励。 计算损失函数反向传播优化调整
深度强化学习网络的参数, 输出机械臂末端在基
坐标系下三轴方向的具体位移动作值。
权利要求书1页 说明书3页 附图1页
CN 115070767 A
2022.09.20
CN 115070767 A
1.一种基于Actor Critic的动态装配方法, 其特 征在于, 包括如下步骤:
基于LSTM、 critic网络和actor网络建立深度强化学习网络;
采集当前时刻的最近邻K个时刻的接触力序列,并将其定义为强化学习 网络的输入和
状态量;
定义深度强化学习网络输出为二维的均值 μ和方差σ 向量; 通过对均值和方差代表的高
斯分布进行采样, 获取机 械臂末端在基坐标系下x轴和y轴方向的具体位移动作值;
通过轴体运动趋势定义每个时刻的初始奖励rt, 结合序列折扣因子获取每时刻的更新
奖励Rt;
根据输出状态的价值v、 更新奖励Rt和均值μ和方差σ 计算损失函数, 从而反向传播优化
调整深度强化学习网络的参数;
实时采集接触力序列, 输入上述优化后的深度强化学习 网络, 自动输出机械臂末端在
基坐标系下x轴和y轴方向的具体位移动作值;
根据x轴、 y轴和z轴方向的具体位移动作值控制机械臂末端移动, 使得机械臂末端的推
销工具将销孔中的定位销推出。
2.根据权利 要求1所述的一种基于Actor Critic的动态装配方法, 其特征在于, 所述深
度强化学习网络包括: 3个LSTM单元组成的LSTM网络, LSTM网络的输出作为critic网络和
actor网络的输入, critic网络和actor网络采用全连接神经网络形式搭建; 其中, critic网
络输出状态的价 值v; actor网络 输出动作的均值 μ和方差σ 。
3.根据权利 要求1所述的一种基于Actor Critic的动态装配方法, 其特征在于, 所述每
个时刻的初始奖励为:
定义接触力阈值f_contact, 当轴孔之间接触力f中最大值大于阈值时, 判断为发生接
触, 将前后两次接触力之差的绝对值取负号后作为t时刻奖励值, 否则以常数c作为t时刻奖
励值;
4.根据权利 要求1所述的一种基于Actor Critic的动态装配方法, 其特征在于, 所述更
新奖励Rt为: 按照时间顺序对各个时刻接触力对应的奖励进行加权;
Rt=rt+α rt‑1+...+αk‑1rt‑k+1
其中, α……αk‑1为加权系数。
5.根据权利 要求1所述的一种基于Actor Critic的动态装配方法, 其特征在于, 所述接
触力序列为机 械臂末端安装的力传感器采集的反馈值; 接触力为[Fx,Fy,Fz]。权 利 要 求 书 1/1 页
2
CN 115070767 A
2一种基于Actor Critic的动态装配方 法
技术领域
[0001]本发明涉及动态装配领域, 具体地说是一种基于Actor Critic的动态装配方法。
背景技术
[0002]带电绝缘子更换机器人在工作时, 会由绝缘斗臂车运送到待更换的绝缘子上方,
然后开始绝缘子的更换工作。 在更换绝缘子之前, 需要将位于输电线路上 的绝缘子串中间
的绝缘销推出, 推销动作由末端带有专用推销工具 的机械臂完成。 输电线路上 的两片绝缘
子之间通过绝缘销固定, 机器人在视觉系统的引导下, 将专用推销工具移动到销孔上方。 当
多刚体机器人与位于柔性输电线路上的销孔 发生接触时, 输电线路的位置会因受到挤压发
生动态变化, 进而改变销孔与机器人底座的相对位置关系, 以此引发的动态冲击力将导致
接触力动态变化。 因此, 此装配任务可以被看作为动态装配任务。 面对动态装配任务, 传统
的柔顺控制方法往 往无法发挥其作用。
发明内容
[0003]本发明解决的是在具有柔索特征的输电线路上进行绝缘子更换操作过程中, 涉及
到的推销工具与销孔之间装配的动态装配问题。 通过使用深度强化学习框架Actor
Critic, 在此基础上设计基于运动趋势的奖励, 并定义序列折扣因子对单个时刻的奖励进
行加权, 最后基于损失函数进行反向传播优化网络参数。 此 方法解决了此动态装配任务。
[0004]本发明是一种基于Actor Critic的动态装配方法, 包括如下步骤:
[0005]一种基于Actor Critic的动态装配方法, 包括如下步骤:
[0006]基于LSTM、 critic网络和actor网络建立深度强化学习网络;
[0007]采集当前时刻的最近邻K个时刻的接触力序列,并将其定义为强化学习网络 的输
入和状态量;
[0008]定义深度强化学习网络输出为二维的均值 μ和方差σ 向量; 通过对均值和方差代表
的高斯分布进行采样, 获取机 械臂末端在基坐标系下x轴和y轴方向的具体位移动作值;
[0009]通过轴体运动趋势定义每个时刻的初始奖励rt, 结合序列折扣因子获取每时刻的
更新奖励Rt;
[0010]根据输出状态的价值v、 更新奖励Rt和均值 μ和方差σ 计算损失函数, 从而反向传播
优化调整深度强化学习网络的参数;
[0011]实时采集接触力序列, 输入上述优化后的深度强化学习网络, 自动输出机械臂末
端在基坐标系下x轴和y轴方向的具体位移动作值;
[0012]根据x轴、 y轴和z轴方向的具体位移动作值控制机械臂末端移动, 使得机械臂末端
的推销工具将销孔中的定位销推出。
[0013]所述深度强化学习网络包括: 3个LSTM单元组成的LSTM网络, LSTM网络的输出作为
critic网络和actor 网络的输入, critic网络和actor网络采用全连接神经网络形式搭建;
其中, critic网络 输出状态的价 值v; actor网络 输出动作的均值 μ和方差σ 。说 明 书 1/3 页
3
CN 115070767 A
3
专利 一种基于Actor Critic的动态装配方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:05:58上传分享