(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210419320.5
(22)申请日 2022.04.20
(71)申请人 洛阳理工学院
地址 471000 河南省洛阳市高新区丰华路8
号银昆科技园1号楼
(72)发明人 于佳 郭恒川 王伟静
(74)专利代理 机构 洛阳公信知识产权事务所
(普通合伙) 41120
专利代理师 宋晨炜
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
(54)发明名称
基于余弦相似度变分自编码机的故事分割
方法
(57)摘要
基于余弦相似度变分自编码机的故事分割
方法,包括以下步骤: 步骤1、 对输入文本流进行
预处理, 得到直实用样本
, 以真实样本
作为
VAE神经网络的输入; 步骤2、 利用VA E神经网络提
取出主题域特征;步骤3、 利用TextT iling进行 故
事分割;变分自编码机可使用主题隐变量, 对文
本主题域特征进行有效学习; 变分自编码机不需
要预先知 道文档中主题个数, 也无需文本对应主
题标签, 是一种无监督学习方式, 更接近真实任
务; 本文提出的基于语义相似度的变 分自编码机
故事分割方法, 采用余弦计算语句块相似度, 具
有计算简单、 计算速度快的特点。
权利要求书2页 说明书13页 附图3页
CN 114841154 A
2022.08.02
CN 114841154 A
1.基于余弦相似度变分自编码机的故事分割方法, 其特 征在于: 包括以下步骤:
步骤1、 对输入文本流进行预处理, 得到直实用样本xt, 以真实样本xt作为VAE神经网络
的输入;
步骤2、 利用V AE神经网络提取 出主题域特 征
步骤2.1、 将VAE神经网络分为推断网络与生成网络两部分, 推断网络与生成网络之间
为隐主题, 根据输入真实样本xt得到推断网络对应的真实分布qφ(zt|xt), 推断网络对真实
样本xt进行编码, 得到隐主题的后验概率分布q(zt|xt), 假设此分布为高斯分布, 推断出专
属于xt的均值和方差, 从这个专属分布中采样zt, 生成网络通过采样zt得到重构样本x ′t, 利
用重构样本x ′t得到生成网络生成的样本概 率分布pθ(zt)·pθ(x′t|zt);
步骤2.2、 利用重构损失函数LR使重构样本x ′t和真实样本xt尽可能一致, 得到LR, 再利用
散度损失函数KL, 使样本概率分布pθ(zt)·pθ(x′t|zt)尽量接近真实分布qφ(zt|xt), 得到
LKL, VAE神经网络的损失函数为 Lloss=LR+LKL, 利用该损失函数进行训练, 直至训练完成;
步骤2.3、 对训练完成后的VAE神经网络进特征提取, 对新输入的真实样本xt, 提取每个
词对应的隐主题变量(z1,z2,…zn), 将隐主题变量(z1,z2,…zn)的均值和方差作为主题 域特
征;
步骤3、 利用TextTi ling进行故事分割
步骤3.1、 将句子间隙作为边界候选位置, 计算每个候选位置相邻句子间的相似度值,
作为候选位置的语义相似度;
其中, 句子相似度可以通过计算句子向量间的余弦相似度得到, 即
Score(i)=cos(vec(i),vec(i ‑1))
其中, score(i)表示这两个句子的相似度值, vec(i)表示VAE神 经网络提取出的第i个
句子的主题域向量, n 为当前句子中单词的个数;
步骤3.2、 根据每 个候选位置的语义相似度值, 得 出深度值; ;
步骤3.3、 选取阈值, 将深度值大于此阈值的位置作为主题边界, 通过主题边界完成故
事分割。
2.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步
骤1中预处理的具体方法为, 去除停用词, 经过预 处理后得到一个词典, 利用词典, 可以将输
入文本流内的每个词语表示成one ‑hot向量, 即向量大小与词典大小相同, 在向量中, 对应
单词位置为 1, 其余位置为0, 对每个单词设置固定窗长, 对窗长内单词采用平均策略求取带
有上下文信息的单词表示 为xt。
3.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 采
样zt的计算方法为
zt= μt+∈·σt (2)
其中, μt和σt分别为zt的均值和方差, ∈为均值为0及方差为1的标准正太分布, 即∈∈N
(0,1)。
4.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 利
用重构损失函数LR使重构样本x ′t和真实样本xt尽可能一 致的方法为权 利 要 求 书 1/2 页
2
CN 114841154 A
2LR=(xt‑x′t)2 (3)
其中, xt为真实样本, x ′t为重构样本 。
5.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 使
样本概率分布pθ(zt)·pθ(x′t|zt)尽量接近真实分布qφ(zt|xt)的方法为
LKL=KL(pθ(zt)·pθ(x′t|zt),qφ(zt|xt)) (4)
其中, 真实分布qφ(zt|xt)和pθ(x′t|zt)服从正态分布, pθ(zt)服从标准 正态分布。
6.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步
骤2.2中采用随机梯度下降法进行训练。
7.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步
骤3.2中深度值的具体实现方法为, 根据每个候选位置的语义相似度值, 画出相似度波形
图, 在每个波谷位置, 分别计算左右波峰与波谷的语义相似度差值, 将差值之和作为波谷位
置的深度值。
8.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步
骤3.3中选取阈值的具体方法为, 将
作为阈值,
为深度值序列的均值和 δ为深度
值序列的方差 。权 利 要 求 书 2/2 页
3
CN 114841154 A
3
专利 基于余弦相似度变分自编码机的故事分割方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:50上传分享