(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111546245.0
(22)申请日 2021.12.16
(65)同一申请的已公布的文献号
申请公布号 CN 114186749 A
(43)申请公布日 2022.03.15
(73)专利权人 暨南大学
地址 510632 广东省广州市天河区黄埔大
道西601号
(72)发明人 郭洪飞 陈世帆 曾云辉 杨博文
伍泓韬 何智慧 任亚平 李建庆
(74)专利代理 机构 北京精金石知识产权代理有
限公司 1 1470
专利代理师 杨兰兰
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)G06Q 50/04(2012.01)
G06N 3/12(2006.01)
G06N 20/20(2019.01)
(56)对比文件
CN 113034026 A,2021.0 6.25
CN 112488315 A,2021.0 3.12
CN 113506048 A,2021.10.15
CN 112987664 A,2021.0 6.18
CN 113610233 A,2021.1 1.05
US 2013308570 A1,2013.1 1.21
魏英姿等.基 于性能预测的遗传强化学习动
态调度方法. 《系统仿真学报》 .2010,(第12期),
第2809-2820页.
叶婉秋.基 于智能强化学习的遗传算法研
究. 《电脑学习》 .2010,(第02期),第1 12-114页.
审查员 郭彬瑜
(54)发明名称
基于强化学习及遗传算法的柔性车间调度
方法及模型
(57)摘要
本发明提供了一种基于强化学习及遗传算
法的柔性车间调度方法及模型, 属于人工智能技
术领域。 根据柔性作业车间的特点, 建立柔性作
业车间调度模 型; 对遗传算法和基于熵的置信域
优化强化学习算法中的基本参数进行初始化; 利
用基于熵的置信域优化算法更新遗传算法中的
参数, 并分别对参与交叉和变异的染色体种群进
行交叉和变异操作, 生成参与交叉和变异的新染
色体种群; 计算新种群中每个个体的适应度, 确
定基于熵的置信域优化算法中的状态 参数, 对新
染色体种群执行遗传算法操作; 反复执行上述迭
代至截止, 并输出结果。 本发明将基于熵的置信
域优化强化学习算法与遗传算法相结合, 提高了
柔性车间调度的性能, 增强车间生产的鲁棒性,
提高生产效率。
权利要求书3页 说明书15页 附图3页
CN 114186749 B
2022.06.28
CN 114186749 B
1.一种基于强化学习及遗传算法的柔性车间调度方法, 其特征在于, 所述基于强化学
习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相
结合, 包括如下步骤:
根据柔性作业车间的特点, 建立 柔性作业车间调度模型并确定其约束条件;
对柔性作业车间调度模型的解进行编码, 实现解和染色体之间的相互转换;
对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始
化, 得到初始的染色体种群以及基于熵的置信域优化强化学习算法的相关参数;
利用基于熵的置信域优化强化学习算法更新遗传算法中的参数, 在基于熵的置信域优
化强化学习算法中利用Adam优化器对目标函数进行更新, 所述目标函数中加入策略的熵,
并在目标函数中引入 对价值函数的值的估计; 目标函数 具体如下:
其中,
是目标函数, 反映的是优化的目标;
为所训练的智能体的现在的网络参数;
为所训练的智能体的更新后的网络参数;
是t时刻的状态,
是t时刻的动作;
是当前网络参数 下的策略;
是更新后的网络参数的策略;
是优势函数, 用来衡量在状态
下, 采取动作
的好坏;
是超参数, 用来调节能接 受的策略更新后差异的最大值,
越小, 表示能容忍的策略
更新的差异越小, 也可以保证策略更新更加稳定;
表示的是策略的熵值, 反映的是策略的多样性, 其中
是超参
数, 表示想要控制的策略多样性的程度;
表示的是实际的价值函数Vtarget和训练得到的价值函数
的差
异,
是超参数, 表示能接受的价 值函数估计差的范围;
根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作, 生成参与遗传的
新染色体种群;
计算新种群中每个个体的适应度, 确定基于熵的置信域优化强化学习算法中的状态参
数, 对新染色体种群执 行遗传算法操作;权 利 要 求 书 1/3 页
2
CN 114186749 B
2判断种群迭代次数是否达到上限, 若未达到上限, 继续返回利用基于熵的置信域优化
强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm; 若已达到上限, 则直接输出结
果。
2.根据权利要求1所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,
利用基于熵的置信域优化 强化学习算法更新遗传算法中的交叉概率P c与变异概率Pm, 根据
交叉概率P c与变异概率Pm分别对参与交叉和变异的染色体种群进 行交叉和变异操作, 生成
参与交叉和变异的新染色体种群。
3.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,
根据柔性作业车间的特点, 建立 柔性作业车间调度模型, 具体包括:
将柔性作业车间调度模型定义为: n个工件
要在m台机器
上
加工;
每个工件
包含一道或多道工序, 预先确定工序顺序, 每道工序可以在
多台不同加工机器上进 行加工, 每道工序的加工时间随加工机器
的不
同而变化;
调度目标为使整个系统的如下性能指标达到最优,具体为: 最大完工时间最小、 最大负
荷机器负荷最小和所有机器的总负荷最小,
性能指标的目标函数分别如下:
最大完工时间
;
其中,
为机器
的完工时间;
最大负荷机器负荷
;
其中,
为机器
的工作负荷;
所有机器的总负荷
。
4.根据权利要求3所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,
确定的柔 性作业车间调度模型的约束条件为每台机器的完 工时间为非负值
。
5.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,
柔性作业车间调度编码包括两部分: 机器染色体和工序染色体, 机器染色体基于机器分配
的编码, 确定所选择的加工机器, 对应机器选择子问题; 工序染色体基于工序的编码, 确定
工序间的加工顺序, 对应工序加工排序子问题, 将这两种编码方法融合形成一条染色体, 该
染色体即为 柔性作业车间调度模型的一个可 行解。
6.根据权利要求5所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,
解码时, 先根据机器染色体的基因串确定每道工序的加工机器, 再依据工序染色体的基因
串确定每台加工机器上的加工工序的顺序, 将各机器上的各工序的加工顺序转换为一个工
序表, 最后根据该工序表对各工序以最 早允许的加工时间逐一进行加工 。
7.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法, 其特征在于,权 利 要 求 书 2/3 页
3
CN 114186749 B
3
专利 基于强化学习及遗传算法的柔性车间调度方法及模型
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 23:43:49上传分享