安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210433291.8 (22)申请日 2022.04.24 (71)申请人 浪潮软件科技有限公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园 (72)发明人 王宗增 杨培强 程林  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 姜丽洁 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种融合多层前馈表征的预训练方法及装 置 (57)摘要 本发明涉及深度学习技术领域, 具体提供了 一种融合多层前馈表征的预训练方法, 具有如下 步骤: S1、 对文本数据进行采集; S2、 设定多任务 学习的任务 分类类别; S3、 依据选定的任务类型, 分别应对预处理相应的文本; S4、 网络结构的设 定和代码编写; S5、 实现层间拉平的文本向量的 融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算 法制定; S8、 整 合步骤S4至S7代 码, 进行End ‑to‑End的全网络前馈流程; S9、 使用 预处理后的文本数据对模型进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的 预训练语言模型; S11、 Encoder分别后接 Specific ‑task后处理模型。 与现有技术相比, 本 发明通过融合手段有效提升了词向量的全局文 本表征能力。 权利要求书2页 说明书5页 附图3页 CN 114912606 A 2022.08.16 CN 114912606 A 1.一种融合多层前馈表征的预训练方法, 其特 征在于, 具有如下步骤: S1、 对文本数据进行采集; S2、 设定多任务学习的特定任务类别, 同时包括NSP下句 预测的句子对任务和SQuAD阅 读理解任务; S3、 依据选定的任务类型, 分别应对预处理相应的文本, 包括监督型的打标任务和无标 签数据的Self ‑train策略定制; S4、 网络结构的设定和代码编写; S5、 制定并编写代码, 实现层间拉平的文本向量的融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算法制定, 并编写代码; S8、 整合步骤S4至S7代码, 进行End ‑to‑End的全网络前馈流 程; S9、 使用预处理后的文本数据对融合多层前馈表征的编码器网络进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的预训练语言模型; S11、 Encoder分别后接Specific ‑task后处理模型, 使用测试数据分别对融合多层前馈 表征的编码器网络进行性能评估。 2.根据权利要求1所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S3 中, 在Data  Augmentation上, 对后置词语分类特定任务的语料, 基于Skip ‑Gram的Word   Embedding进行Word Mixup, 同时针对标签进行Label  Smoothing; 融合Self ‑training弱监督学习Pure  Semi‑supervised  Learning, 对无监督数据进行 有效利用。 3.根据权利要求2所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S4 中, Encoder部分使用14头Mu lti‑headed Attention多头注意力机制 、 Position Embedding 位置嵌入, 主动放大Sequence  Mask, 对多层Encoder的全局向量表征, 使用BERT  base‑ chinese的12层F eed Forward结构。 4.根据权利要求3所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, 多层向量表征的融合上, 采用两种融合策 略, 一种融合策 略为借鉴SENet对各层表征进 行LN操作, 并进行一维全局maximum  pooling, 随后接入2层的FC, 得到各层向量表征的重要 程度, 最终对多层向量表征进行加权融合。 5.根据权利要求4所述的一种融合多层前馈表征的预训练方法, 其特征在于, 所述的两 种融合策 略中第二种融合策 略为将多层向量表征的层关系视为Channel深度关系, 先通过 少于Channel数的Point ‑wise Convolution进行通道减少并缓解混叠, 随后进行单滤波器 的Point‑wise Convolution将特征Flatten为1d向量, 紧接着连接输出层构建FC网络, 所述 FC网络的输出维度等同于输入1d向量的维度, 从而通过网络结构的专门设定实现了多层向 量表征的融合。 6.根据权利要求5所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, Feed Forward前馈部分, 借鉴CSPDarknet ‑53调整BERT  base的ResNet ‑shortcut为CSP 结构, 设定Bottleneck模块数为6, 将CSP替换为1d卷积, 并保留BN操作, 同时采用GELU激活 函数。权 利 要 求 书 1/2 页 2 CN 114912606 A 27.根据权利要求6所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S7 中, 构建Multi ‑task learning训练目标, 通过 实验Coding实现并验证比对GLUE 各类任务对 应的损失函数, 最终选择Soft  F1 Loss替换原网络中的交叉熵损失作为 最终的策略要素。 8.根据权利要求7所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S8 中, 通过引入指数加权移动平均数和Momentum的Adam, 并在Specific ‑task层上设计网络, 在BERT后接入8层的FC构成MLP, 其中FC的网络层数作为超参数进行GridSearch/ RandomSearc h调参。 9.一种融合多层前馈表征的预训练装置, 其特征在于, 包括: 至少一个存储器和至少一 个处理器; 所述至少一个存 储器, 用于存 储机器可读程序; 所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至8中任一所述的 方法。权 利 要 求 书 2/2 页 3 CN 114912606 A 3

.PDF文档 专利 一种融合多层前馈表征的预训练方法及装置

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合多层前馈表征的预训练方法及装置 第 1 页 专利 一种融合多层前馈表征的预训练方法及装置 第 2 页 专利 一种融合多层前馈表征的预训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。