(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210267297.2
(22)申请日 2022.03.18
(71)申请人 江汉大学
地址 430056 湖北省武汉市沌口经济技 术
开发区新江大路8号
(72)发明人 高望 秦邦政 邓宏涛 朱珣
刘哲
(74)专利代理 机构 北京众达德权知识产权代理
有限公司 1 1570
专利代理师 刘杰
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种社交媒体灾害有效信息检测模型的构
建方法
(57)摘要
本申请提供了一种社交媒体灾害有效信息
检测模型的构建方法, 用于通过CRFTM来抽取短
文本的主题信息, 再融合该主题信息进行BERT模
型对于检测灾害有效性的训练, 不仅有助于降低
了训练成本, 也可提高模型的检测精度, 模型的
检测性能得到显著的提升。 方法包括: 获取目标
社交媒体平台上的用户发布信息; 通过CRFTM抽
取用户发布信息中的主题信息, 在抽取处理过程
中, CRFTM将用户发布信息中的短文本合并为文
本长度更长的伪文档, 再通过词向量和词相关知
识的结合, 从伪文档中提取出主题信息; 以主题
信息作为训练数据, 训练BERT模型识别输入数据
中的灾害有效信息, 灾害有效信息是指对于特定
灾害事件的响应有所帮助的信息 。
权利要求书5页 说明书15页 附图4页
CN 114818724 A
2022.07.29
CN 114818724 A
1.一种社交媒体灾害 有效信息检测模型的构建方法, 其特 征在于, 所述方法包括:
获取目标社交媒体平台上的用户发布信 息, 所述用户发布数据为所述目标社交媒体平
台上的用户针对特定灾害事 件发布的行为信息;
通过条件随机场正则化主体模型CRFTM抽取所述用户发布信息中的主题信息, 在抽取
处理过程中, 所述CRFTM将所述用户发布信息中的短文本合并为文本长度更长的伪文档, 再
通过词向量和词相关知识的结合, 从所述伪文档中提取 出所述主题信息;
以所述主题信 息作为训练数据, 训练来自变换器的双向编码器表征量BERT模型识别输
入数据中的灾害有效信息, 所述灾害有效信息是指对于所述特定灾害事件的响应有所帮助
的信息。
2.根据权利 要求1所述的方法, 其特征在于, 在所述抽取处理过程中, 所述CRFTM具体用
于:
利用基于词向量的最小平均距离度量不同短文本之间的距离, 并在所述不同短文本之
间找到语义相关的词, 在所述与语义相关的词被分配到同一主题标签的概率更高的情况
下, 利用聚类算法将所述 不同短文本聚合成文本 长度更长的所述伪文档;
为整个语料采样一个主题分布θ~Dir(α ), 对于每个主题k采样一个词分布φk~Dir
(β ), α和β 是狄利克雷先验超参数, 对于每个伪文档d采样每个词
每个词的
主题分配zd可由下式计算:
其中, xdi表示第i个词的上下文相关词, xd表示上下文相关词的集合, Ψ表示考虑语义
相关性影响的势能函数, Nd表示d中词的个数, 在所述CRFTM中, 坍缩吉布斯采样法用于推断
主题标签的后验分布, 所述伪文档d中单词xdi的主题zdi可由下式计算:
其中,
表示当词wdi从所述主题k或所述伪 文档d中排除时, 该词被分配给主题k的次
数, V表示词汇 表的维度, 文档的主题分布 θ和主题词的分布φ可分别由下式计算:
其中, K表示主题的个数。
3.根据权利要求1所述的方法, 其特 征在于, 所述BERT模型的训练过程包括以下内容:
令T={t1,t2,...,tj,...,tn}表示输入的短文本, 其中n表示短文本的长度, tj表示短文
本中的第j个字符, 每个字符将被表示为字符向量、 位置 向量和分段向量, 所述字符向量用
来表示不同的字符, 所述位置向量来 获取位置信息, 所述分段向量用来区分不同语句, 通过权 利 要 求 书 1/5 页
2
CN 114818724 A
2向量化过程之后, E={e1,e2,...,ej,...,en}代替字符集 合T作为模型的输入;
通过自注意力和多头注意力机制, 所述BERT模型将E映射为一系列隐藏表示H={h1,
h2,...,hj,...,hn}, [CLS]作为第一个字符被添加到字符序列中, 它的隐藏状态hc被用作所
述BERT模型的输出向量表示:
其中, dBERT表示所述BERT模型中输出层维度的大小, 对于主题信息Rw, 利用单词总和表
示法推断短文本的主题特 征p(z∣ d):
其中, p(w∣ d)表示w在d中出现的次数, 利用前期融合的方法将所述主题信息Rw和所述
BERT模型的输出hc进行融合:
其中,
表示连接运 算符。
4.根据权利要求1所述的方法, 其特征在于, 所述BERT模型在训练过程中的微调阶段,
利用半监 督生成对抗网络SGAN实现半监 督学习, 以改进模型的检测性能;
在所述SGAN中, 判别器模块将数据划分为(c+1)个类别, 真实数据被分类为目标类别之
一, 记为(1,. ..,c), 而生成器生成的数据被分类为 新的生成类, 记为(c+1),
G表示生成器模块, D表示判别器模块, pG是生成器概率分布, pD是真实数据 概率分布, pm
(y=c+1∣ x)表示数据 x属于所述新的生成类的概率, pm(y∈(1,...,c)∣ x)表示x属于与原始
类别关联的真实数据的概 率, 为训练一个半监 督的c类分类 器, D的损失函数LD定义为:
LD=Lsupervised+Lunsupervised,
所述损失函数LD分解为有监督损失函数Lsupervised和无监督损失函数Lunsupervised:
其中, Lsupervised表示将实际数据分类到目标c类中错误类别的累积损失, Lunsupervised表示
将未标记的真实数据分类为所述 新的生成类和将生成的数据分类为真实数据的累积损失;
生成器模块 G生成的数据与从真实数据概率分布pD采样的数据尽可能相似, 所述生成器
模块G的训练目标是学习出判别器模块中间层特征的期望值, 通过训练判别器模块D, 所述
SGAN捕获最能区分真实数据和G生 成数据的那些特征, 则生 成器模块G的特征匹配损失函数
定义为:
其中, f(x)表示激活函数, Lunsupervised表示将未标记的真实数据分类为所述新的生成类
和将生成的数据分类为真实数据的累积损失, 当所述生成器模块G生成的样本数据输入所
述判别器模块D 到时, 它们的特征表示与真实数据非常相似, 所述SGA N还需要考虑所述判别
器模块D将生成的数据分类为真实数据所产生的误差Lgenerated:
Lgenerated=Ex~pG(x)log[1‑pm(y=c+1∣ x)],
所述生成器模块D的最终损失函数为 LG=Lfm+Lgenerated。
5.一种社交媒体灾害 有效信息检测模型的构建装置, 其特 征在于, 所述装置包括:权 利 要 求 书 2/5 页
3
CN 114818724 A
3
专利 一种社交媒体灾害有效信息检测模型的构建方法
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:06上传分享