(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210252170.3
(22)申请日 2022.03.15
(71)申请人 中南大学
地址 410083 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 龙军 向一平 刘磊 李浩然
(74)专利代理 机构 长沙市融智专利事务所(普
通合伙) 43114
专利代理师 胡喜舟
(51)Int.Cl.
G06F 40/253(2020.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种结合语法的文本 语义相似度计算方法
(57)摘要
本发明公开了一种结合语法的文本语义相
似度计算方法, 包括获取待计算语义相似度的两
个句子; 通过深度语义交互模型提取两个句子的
语义特征向量; 分别构建两个句子的语法依存
树, 并进行结构化嵌入, 分别获得两个句子的语
法树特征向量; 将两个句子各自的语义特征向量
与语法树特征向量进行拼接, 分别得到两个句子
的最终语义特征向量; 基于两个句子的最终语义
特征向量计算得到两个句子的语义相似度。 本发
明的方案提取的句子特征结合了句子中的语法
信息, 提取到的特征更加全面、 深入, 充分考虑了
句子中的上下文关系, 计算得到的相似度准确性
更高, 同时兼顾 平衡了准确率和计算效率。
权利要求书2页 说明书6页 附图3页
CN 114580385 A
2022.06.03
CN 114580385 A
1.一种结合语法的文本语义相似度计算方法, 其特 征在于, 包括:
获取待计算语义相似度的两个句子;
通过深度语义交 互模型提取两个句子的语义特 征向量;
分别构建两个句子的语法依存树, 并进行结构化嵌入, 分别获得两个句子的语法树特
征向量;
将两个句子各自的语义特征向量与语法树特征向量进行拼接, 分别得到两个句子的最
终语义特 征向量;
基于两个句子的最终语义特 征向量计算得到 两个句子的语义相似度。
2.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 所述深度
语义交互模型为使用词MASK训练的BERT衍 生模型。
3.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 构建两个
句子的语法依存树过程包括:
分别对两个句子进行语法分析;
基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语
法依存树。
4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法, 其特征在
于, 将两个句子的语法依存树进 行结构化嵌入, 分别获得两个句子的语法树特征向量, 过程
包括:
对于每个句子的语法依存树, 定义语法序列Cp为依存树节点的所有子节点, 顺序为词汇
在句子中的原 始顺序;
定义一个最长序列长度l;
将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入; 如果语法序列
Cp中元素长度不足l, 词嵌入以零矩阵填充以达到最长序列长度; 如果语法序列Cp中元素长
度超过l, 则截断超过长度的元 素, 仅保留前l个元 素, 此时新得到的语法序列定义 为
分别对两个句子中每个句子中的所有词计算其
得到两个句子的语法序列
和
分别将两个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子 中每个词的
语法树嵌入, 通过拼接从而得到每 个句子的语法树特 征向量。
5.根据权利要求4所述的结合语法的文本语义相似度计算方法, 其特征在于, 分别将两
个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子中每个词的语法树嵌入,
通过拼接从而得到每 个句子的语法树特 征向量, 具体包括:
两个句子的语法序列输入一个双向LSTM神经网络中, 该双向LSTM神经网络在t时刻的
输出为:
其中,
表示t时刻双向LSTM神经网络的正向输出,
表示t时刻双向LSTM神经网络的
反向输出, wf和wb代表正向LSTM与反向LSTM的隐藏层状态, bt代表偏移量;权 利 要 求 书 1/2 页
2
CN 114580385 A
2对于词汇p, 获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层
状态, 构建词汇p的语法树嵌入V=[Ew,fm,bn], 其中,
表示词汇p的词嵌入, fm表示
双向LSTM网络中正向网络的最后一层计算结果, bn表示双向LSTM网络中反向网络的最后一
层计算结果;
对于每个句子 中每一个词汇都获取其语法树嵌入, 通过拼接从而得到每个句子的语法
树特征向量。
6.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 基于两个
句子的最终语义特 征向量计算得到 两个句子的语义相似度, 具体包括:
将两个句子的最终语义特 征向量输入最终的预测层计算出最终的语义相似度;
预测层的计算过程包括: 将两个句子的最终语义特征向量进行融合, 输入一个多层感
知机, 多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数, 多层感知机的计算公
式为:
其中, s表示多层感知机的输出, W1和W2为参数, b1和b2为偏移量, MA和MB分别表示两个句
子的最终语义特 征向量, σ 代 表tanh激活函数;
多层感知机的输出继续送入一个全连接层, 并且使用sigmoid函数作 为激活函数, 得到
一个范围在[0, 1]的最终相似度, 即为两个句子的语义相似度。权 利 要 求 书 2/2 页
3
CN 114580385 A
3
专利 一种结合语法的文本语义相似度计算方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:10上传分享