专利 基于强化学习及遗传算法的柔性车间调度方法及模型

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111546245.0 (22)申请日 2021.12.16 (65)同一申请的已公布的文献号申请公布号 CN 114186749 A (43)申请公布日 2022.03.15 (73)专利权人暨南大学地址 510632 广东省广州市天河区黄埔大道西601号 (72)发明人郭洪飞　陈世帆　曾云辉　杨博文　伍泓韬　何智慧　任亚平　李建庆　 (74)专利代理机构北京精金石知识产权代理有限公司 1 1470 专利代理师杨兰兰 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01)G06Q 50/04(2012.01) G06N 3/12(2006.01) G06N 20/20(2019.01) (56)对比文件 CN 113034026 A,2021.0 6.25 CN 112488315 A,2021.0 3.12 CN 113506048 A,2021.10.15 CN 112987664 A,2021.0 6.18 CN 113610233 A,2021.1 1.05 US 2013308570 A1,2013.1 1.21 魏英姿等.基于性能预测的遗传强化学习动态调度方法. 《系统仿真学报》 .2010,(第12期), 第2809-2820页. 叶婉秋.基于智能强化学习的遗传算法研究. 《电脑学习》 .2010,(第02期),第1 12-114页. 审查员郭彬瑜 (54)发明名称基于强化学习及遗传算法的柔性车间调度方法及模型 (57)摘要本发明提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型，属于人工智能技术领域。根据柔性作业车间的特点，建立柔性作业车间调度模型；对遗传算法和基于熵的置信域优化强化学习算法中的基本参数进行初始化；利用基于熵的置信域优化算法更新遗传算法中的参数，并分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群；计算新种群中每个个体的适应度，确定基于熵的置信域优化算法中的状态参数，对新染色体种群执行遗传算法操作；反复执行上述迭代至截止，并输出结果。本发明将基于熵的置信域优化强化学习算法与遗传算法相结合，提高了柔性车间调度的性能，增强车间生产的鲁棒性，提高生产效率。权利要求书3页说明书15页附图3页 CN 114186749 B 2022.06.28 CN 114186749 B 1.一种基于强化学习及遗传算法的柔性车间调度方法，其特征在于，所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合，包括如下步骤：根据柔性作业车间的特点，建立柔性作业车间调度模型并确定其约束条件；对柔性作业车间调度模型的解进行编码，实现解和染色体之间的相互转换；对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化，得到初始的染色体种群以及基于熵的置信域优化强化学习算法的相关参数；利用基于熵的置信域优化强化学习算法更新遗传算法中的参数，在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新，所述目标函数中加入策略的熵，并在目标函数中引入对价值函数的值的估计；目标函数具体如下：其中，是目标函数，反映的是优化的目标；为所训练的智能体的现在的网络参数；为所训练的智能体的更新后的网络参数；是t时刻的状态，是t时刻的动作；是当前网络参数下的策略；是更新后的网络参数的策略；是优势函数，用来衡量在状态下，采取动作的好坏；是超参数，用来调节能接受的策略更新后差异的最大值，越小，表示能容忍的策略更新的差异越小，也可以保证策略更新更加稳定；表示的是策略的熵值，反映的是策略的多样性，其中是超参数，表示想要控制的策略多样性的程度；表示的是实际的价值函数Vtarget和训练得到的价值函数的差异，是超参数，表示能接受的价值函数估计差的范围；根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作，生成参与遗传的新染色体种群；计算新种群中每个个体的适应度，确定基于熵的置信域优化强化学习算法中的状态参数，对新染色体种群执行遗传算法操作；权　利　要　求　书 1/3 页 2 CN 114186749 B 2判断种群迭代次数是否达到上限，若未达到上限，继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm；若已达到上限，则直接输出结果。 2.根据权利要求1所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率P c与变异概率Pm，根据交叉概率P c与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作，生成参与交叉和变异的新染色体种群。 3.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，根据柔性作业车间的特点，建立柔性作业车间调度模型，具体包括：将柔性作业车间调度模型定义为： n个工件要在m台机器上加工；每个工件包含一道或多道工序，预先确定工序顺序，每道工序可以在多台不同加工机器上进行加工，每道工序的加工时间随加工机器的不同而变化；调度目标为使整个系统的如下性能指标达到最优,具体为：最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小，性能指标的目标函数分别如下：最大完工时间；其中，为机器的完工时间；最大负荷机器负荷；其中，为机器的工作负荷；所有机器的总负荷。 4.根据权利要求3所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值。 5.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，柔性作业车间调度编码包括两部分：机器染色体和工序染色体，机器染色体基于机器分配的编码，确定所选择的加工机器，对应机器选择子问题；工序染色体基于工序的编码，确定工序间的加工顺序，对应工序加工排序子问题，将这两种编码方法融合形成一条染色体，该染色体即为柔性作业车间调度模型的一个可行解。 6.根据权利要求5所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，解码时，先根据机器染色体的基因串确定每道工序的加工机器，再依据工序染色体的基因串确定每台加工机器上的加工工序的顺序，将各机器上的各工序的加工顺序转换为一个工序表，最后根据该工序表对各工序以最早允许的加工时间逐一进行加工。 7.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法，其特征在于，权　利　要　求　书 2/3 页 3 CN 114186749 B 3

专利 基于强化学习及遗传算法的柔性车间调度方法及模型

专利基于强化学习及遗传算法的柔性车间调度方法及模型