安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210419320.5 (22)申请日 2022.04.20 (71)申请人 洛阳理工学院 地址 471000 河南省洛阳市高新区丰华路8 号银昆科技园1号楼 (72)发明人 于佳 郭恒川 王伟静  (74)专利代理 机构 洛阳公信知识产权事务所 (普通合伙) 41120 专利代理师 宋晨炜 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) (54)发明名称 基于余弦相似度变分自编码机的故事分割 方法 (57)摘要 基于余弦相似度变分自编码机的故事分割 方法,包括以下步骤: 步骤1、 对输入文本流进行 预处理, 得到直实用样本 , 以真实样本 作为 VAE神经网络的输入; 步骤2、 利用VA E神经网络提 取出主题域特征;步骤3、 利用TextT iling进行 故 事分割;变分自编码机可使用主题隐变量, 对文 本主题域特征进行有效学习; 变分自编码机不需 要预先知 道文档中主题个数, 也无需文本对应主 题标签, 是一种无监督学习方式, 更接近真实任 务; 本文提出的基于语义相似度的变 分自编码机 故事分割方法, 采用余弦计算语句块相似度, 具 有计算简单、 计算速度快的特点。 权利要求书2页 说明书13页 附图3页 CN 114841154 A 2022.08.02 CN 114841154 A 1.基于余弦相似度变分自编码机的故事分割方法, 其特 征在于: 包括以下步骤: 步骤1、 对输入文本流进行预处理, 得到直实用样本xt, 以真实样本xt作为VAE神经网络 的输入; 步骤2、 利用V AE神经网络提取 出主题域特 征 步骤2.1、 将VAE神经网络分为推断网络与生成网络两部分, 推断网络与生成网络之间 为隐主题, 根据输入真实样本xt得到推断网络对应的真实分布qφ(zt|xt), 推断网络对真实 样本xt进行编码, 得到隐主题的后验概率分布q(zt|xt), 假设此分布为高斯分布, 推断出专 属于xt的均值和方差, 从这个专属分布中采样zt, 生成网络通过采样zt得到重构样本x ′t, 利 用重构样本x ′t得到生成网络生成的样本概 率分布pθ(zt)·pθ(x′t|zt); 步骤2.2、 利用重构损失函数LR使重构样本x ′t和真实样本xt尽可能一致, 得到LR, 再利用 散度损失函数KL, 使样本概率分布pθ(zt)·pθ(x′t|zt)尽量接近真实分布qφ(zt|xt), 得到 LKL, VAE神经网络的损失函数为 Lloss=LR+LKL, 利用该损失函数进行训练, 直至训练完成; 步骤2.3、 对训练完成后的VAE神经网络进特征提取, 对新输入的真实样本xt, 提取每个 词对应的隐主题变量(z1,z2,…zn), 将隐主题变量(z1,z2,…zn)的均值和方差作为主题 域特 征; 步骤3、 利用TextTi ling进行故事分割 步骤3.1、 将句子间隙作为边界候选位置, 计算每个候选位置相邻句子间的相似度值, 作为候选位置的语义相似度; 其中, 句子相似度可以通过计算句子向量间的余弦相似度得到, 即 Score(i)=cos(vec(i),vec(i ‑1)) 其中, score(i)表示这两个句子的相似度值, vec(i)表示VAE神 经网络提取出的第i个 句子的主题域向量, n 为当前句子中单词的个数; 步骤3.2、 根据每 个候选位置的语义相似度值, 得 出深度值; ; 步骤3.3、 选取阈值, 将深度值大于此阈值的位置作为主题边界, 通过主题边界完成故 事分割。 2.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步 骤1中预处理的具体方法为, 去除停用词, 经过预 处理后得到一个词典, 利用词典, 可以将输 入文本流内的每个词语表示成one ‑hot向量, 即向量大小与词典大小相同, 在向量中, 对应 单词位置为 1, 其余位置为0, 对每个单词设置固定窗长, 对窗长内单词采用平均策略求取带 有上下文信息的单词表示 为xt。 3.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 采 样zt的计算方法为 zt= μt+∈·σt (2) 其中, μt和σt分别为zt的均值和方差, ∈为均值为0及方差为1的标准正太分布, 即∈∈N (0,1)。 4.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 利 用重构损失函数LR使重构样本x ′t和真实样本xt尽可能一 致的方法为权 利 要 求 书 1/2 页 2 CN 114841154 A 2LR=(xt‑x′t)2 (3) 其中, xt为真实样本, x ′t为重构样本 。 5.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 使 样本概率分布pθ(zt)·pθ(x′t|zt)尽量接近真实分布qφ(zt|xt)的方法为 LKL=KL(pθ(zt)·pθ(x′t|zt),qφ(zt|xt)) (4) 其中, 真实分布qφ(zt|xt)和pθ(x′t|zt)服从正态分布, pθ(zt)服从标准 正态分布。 6.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步 骤2.2中采用随机梯度下降法进行训练。 7.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步 骤3.2中深度值的具体实现方法为, 根据每个候选位置的语义相似度值, 画出相似度波形 图, 在每个波谷位置, 分别计算左右波峰与波谷的语义相似度差值, 将差值之和作为波谷位 置的深度值。 8.如权利要求1所述的基于余弦相似度变分 自编码机的故事分割方法, 其特征在于: 步 骤3.3中选取阈值的具体方法为, 将 作为阈值, 为深度值序列的均值和 δ为深度 值序列的方差 。权 利 要 求 书 2/2 页 3 CN 114841154 A 3

.PDF文档 专利 基于余弦相似度变分自编码机的故事分割方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于余弦相似度变分自编码机的故事分割方法 第 1 页 专利 基于余弦相似度变分自编码机的故事分割方法 第 2 页 专利 基于余弦相似度变分自编码机的故事分割方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。