安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210282672.0 (22)申请日 2022.03.22 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 孙晓 张梓洋 江月琪 汪萌  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 王云海 (51)Int.Cl. G16H 50/20(2018.01) A61B 5/00(2006.01) G06F 40/30(2020.01) G06N 3/02(2006.01) G06V 40/16(2022.01)G06V 40/18(2022.01) G06V 40/20(2022.01) G10L 15/26(2006.01) G10L 25/63(2013.01) (54)发明名称 基于全注意力机制的多模态抑郁症检测方 法和系统 (57)摘要 本发明提供一种基于全注意力机制的多模 态抑郁症检测方法、 系统、 存储介质和电子设备, 涉及抑郁症检测技术领域。 本发明中, 采集用户 的就诊视频, 就诊视频由医生就汉密顿抑郁量表 对用户进行提问时录制; 根据就诊视频, 获取视 觉特征; 从就诊视频提取音频数据, 获取语音特 征; 将音频数据进行转录标注获取文本数据, 取 文本特征; 根据视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态tran sformer模型预测该 用户的抑郁程度结果。 数据采集结合了具有良好 应用信度的汉密顿抑郁量表, 全面采集了视频模 态、 音频模态、 文本模态的数据, 以及考虑了跨模 态特征信息, 补充了不同模态之间的潜在联系, 用于对用户抑郁症状进行刻画评估, 诊断结果更 准确。 权利要求书4页 说明书11页 附图1页 CN 114898861 A 2022.08.12 CN 114898861 A 1.一种基于全注意力机制的多模态抑郁症检测方法, 其特 征在于, 包括: 采集用户的就诊视频, 所述就诊视频由医生就汉密顿抑郁量表对用户 进行提问时录 制; 根据所述 就诊视频, 获取视 觉特征; 从所述就诊视频提取音频 数据, 根据所述音频 数据, 获取语音特 征; 将所述音频 数据进行转录标注获取文本数据, 根据所述文本数据, 取文本特 征; 根据所述视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态transformer模型预 测该用户的抑郁程度结果。 2.如权利要求1所述的多模态抑郁症检测方法, 其特征在于, 所述视觉特征包括视频帧 序列、 人脸关键点二值图、 复杂情绪序列、 肢体活跃度序列以及注视角热力图中的一种或者 几种任意组合; 获取 过程包括: 采用Openface工具包 对所述就诊视频进行抽帧, 获取 所述视频帧序列; 并对每一帧中的的用户进行人脸检测和人脸对齐, 提取出2D人脸关键点和对齐后的人 脸图片, 将人脸关键点绘制在纯黑色背景 上获取所述人脸关键点 二值图; 将对齐后的人脸 图片输入emonet模型, 对用户的效价和唤醒二维情绪进行预测, 得到 基础情绪, 再通过预设的VA环形模型将基础情绪映射为复杂情绪向量, 获取所述复杂情绪 序列; 采用飞桨框架的实时关键点检测模型提取用户的身体关键点, 将身体关键点坐标转化 为向量, 分别计算鼻子、 四肢向量的变化模长, 组成所述肢体活跃度 序列; 采用Openface工具包提取用户的视线、 头部姿态特征, 将提取出的特征转换成眼睛凝 视序列, 并根据眼睛凝视序列得到热力图的边界和中心点, 去除遍历 中心点最远的部分点 后, 使用八邻域法将眼睛凝 视序列转换成所述注视角热力图。 3.如权利要求2所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述音频数据, 获取语音特 征, 包括: 首先对所述音频数据进行了文本转录, 标注了音频中每一句话的说话角色、 起止时间、 持续时间、 文本内容; 再根据标注的起止时间将录音中用户回答医生的语音数据切分出来; 最终采用开源工具openSMI LE提取所述语音特 征。 4.如权利要求3所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述文本数据, 取文本特 征, 包括: 预先根据回答信息的有效性构建停止词典; 根据所述停止词典清洗 了数据, 获取包 含有效信息的文本内容; 采用Chinese‑roBerta模型将文本内容 转换为文本特 征。 5.如权利要求4所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态transformer模型预测该用户的抑郁程度结 果, 包括: S51、 根据起始时间和 终止时间截取相应的视觉特征, 完成所述视觉特征、 语音特征和 文本特征在时间维度上的对齐; S52、 将所述视频帧序列、 人脸关键点二值图以及注视角热力图划分为三维视觉特征; 将所述复杂情绪序列、 肢体活跃度 序列以及语音特 征划分为 一维时序特 征;权 利 要 求 书 1/4 页 2 CN 114898861 A 2S53、 根据所述三维视觉特征、 一维时序特征和文本特征, 引入可学习 矩阵, 获取各自对 应且维度相同的初始语义特 征; S54、 将所述三维视觉特征、 一维时序特征和文本特征对应的初始语义特征, 结合位置 编码信息, 获取 各自对应的高级语义特 征; 包括: z0=[x0WP; x1WP; ...; xNWP]+ePOS 其中, x0, x1…, xN依次表示某类特征的各个patch; WP表示可学习矩阵; ePOS表示位置编 码; 随后将z0输入由L个Tran sformer Encoder模块堆叠而成的模型中进行高级语义特征提 取, z′l=MHA(LN(zl‑1))+zl‑1, l=1...L zl=MLP(LN(z′l))+z′l, l=1...L zout=LN(zL) 其中, MHA代表Multi ‑Head‑Attention; MLP代表多层感知机; LN代表Layer   Normaliztion; L代表Transformer  Encoder的总个数, l代表第l块Transformer  Encoder; z′l表示对上一层的输出zl‑1执行LN和MHA后再加上上一层的输出zl‑1所得到的结果; zl表示 对z′l执行LN和MLP后再加上z ′l所得到的结果, zout表示对zl做LN所得到的结果; S55、 融合所述 三维视觉特征、 一维时序特 征和文本特 征对应的高级语义特 征; 包括: 将视觉特征和音频特征的模型输出 投影到文本特征空间得到zv→t、 za→t: 将 投影到语音特 征空间得到 zt→a、 zv→a; 将 投影到视觉特征空间得到 zt→v、 za→v; 其中, 权 利 要 求 书 2/4 页 3 CN 114898861 A 3

.PDF文档 专利 基于全注意力机制的多模态抑郁症检测方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于全注意力机制的多模态抑郁症检测方法和系统 第 1 页 专利 基于全注意力机制的多模态抑郁症检测方法和系统 第 2 页 专利 基于全注意力机制的多模态抑郁症检测方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。