(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210282672.0
(22)申请日 2022.03.22
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 孙晓 张梓洋 江月琪 汪萌
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 王云海
(51)Int.Cl.
G16H 50/20(2018.01)
A61B 5/00(2006.01)
G06F 40/30(2020.01)
G06N 3/02(2006.01)
G06V 40/16(2022.01)G06V 40/18(2022.01)
G06V 40/20(2022.01)
G10L 15/26(2006.01)
G10L 25/63(2013.01)
(54)发明名称
基于全注意力机制的多模态抑郁症检测方
法和系统
(57)摘要
本发明提供一种基于全注意力机制的多模
态抑郁症检测方法、 系统、 存储介质和电子设备,
涉及抑郁症检测技术领域。 本发明中, 采集用户
的就诊视频, 就诊视频由医生就汉密顿抑郁量表
对用户进行提问时录制; 根据就诊视频, 获取视
觉特征; 从就诊视频提取音频数据, 获取语音特
征; 将音频数据进行转录标注获取文本数据, 取
文本特征; 根据视觉特征、 语音特征、 文本特征,
采用预先构建的跨模态tran sformer模型预测该
用户的抑郁程度结果。 数据采集结合了具有良好
应用信度的汉密顿抑郁量表, 全面采集了视频模
态、 音频模态、 文本模态的数据, 以及考虑了跨模
态特征信息, 补充了不同模态之间的潜在联系,
用于对用户抑郁症状进行刻画评估, 诊断结果更
准确。
权利要求书4页 说明书11页 附图1页
CN 114898861 A
2022.08.12
CN 114898861 A
1.一种基于全注意力机制的多模态抑郁症检测方法, 其特 征在于, 包括:
采集用户的就诊视频, 所述就诊视频由医生就汉密顿抑郁量表对用户 进行提问时录
制;
根据所述 就诊视频, 获取视 觉特征;
从所述就诊视频提取音频 数据, 根据所述音频 数据, 获取语音特 征;
将所述音频 数据进行转录标注获取文本数据, 根据所述文本数据, 取文本特 征;
根据所述视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态transformer模型预
测该用户的抑郁程度结果。
2.如权利要求1所述的多模态抑郁症检测方法, 其特征在于, 所述视觉特征包括视频帧
序列、 人脸关键点二值图、 复杂情绪序列、 肢体活跃度序列以及注视角热力图中的一种或者
几种任意组合; 获取 过程包括:
采用Openface工具包 对所述就诊视频进行抽帧, 获取 所述视频帧序列;
并对每一帧中的的用户进行人脸检测和人脸对齐, 提取出2D人脸关键点和对齐后的人
脸图片, 将人脸关键点绘制在纯黑色背景 上获取所述人脸关键点 二值图;
将对齐后的人脸 图片输入emonet模型, 对用户的效价和唤醒二维情绪进行预测, 得到
基础情绪, 再通过预设的VA环形模型将基础情绪映射为复杂情绪向量, 获取所述复杂情绪
序列;
采用飞桨框架的实时关键点检测模型提取用户的身体关键点, 将身体关键点坐标转化
为向量, 分别计算鼻子、 四肢向量的变化模长, 组成所述肢体活跃度 序列;
采用Openface工具包提取用户的视线、 头部姿态特征, 将提取出的特征转换成眼睛凝
视序列, 并根据眼睛凝视序列得到热力图的边界和中心点, 去除遍历 中心点最远的部分点
后, 使用八邻域法将眼睛凝 视序列转换成所述注视角热力图。
3.如权利要求2所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述音频数据,
获取语音特 征, 包括:
首先对所述音频数据进行了文本转录, 标注了音频中每一句话的说话角色、 起止时间、
持续时间、 文本内容; 再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;
最终采用开源工具openSMI LE提取所述语音特 征。
4.如权利要求3所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述文本数据,
取文本特 征, 包括:
预先根据回答信息的有效性构建停止词典;
根据所述停止词典清洗 了数据, 获取包 含有效信息的文本内容;
采用Chinese‑roBerta模型将文本内容 转换为文本特 征。
5.如权利要求4所述的多模态抑郁症检测方法, 其特征在于, 所述根据所述视觉特征、
语音特征、 文本特征, 采用预先构建的跨模态transformer模型预测该用户的抑郁程度结
果, 包括:
S51、 根据起始时间和 终止时间截取相应的视觉特征, 完成所述视觉特征、 语音特征和
文本特征在时间维度上的对齐;
S52、 将所述视频帧序列、 人脸关键点二值图以及注视角热力图划分为三维视觉特征;
将所述复杂情绪序列、 肢体活跃度 序列以及语音特 征划分为 一维时序特 征;权 利 要 求 书 1/4 页
2
CN 114898861 A
2S53、 根据所述三维视觉特征、 一维时序特征和文本特征, 引入可学习 矩阵, 获取各自对
应且维度相同的初始语义特 征;
S54、 将所述三维视觉特征、 一维时序特征和文本特征对应的初始语义特征, 结合位置
编码信息, 获取 各自对应的高级语义特 征; 包括:
z0=[x0WP; x1WP; ...; xNWP]+ePOS
其中, x0, x1…, xN依次表示某类特征的各个patch; WP表示可学习矩阵; ePOS表示位置编
码;
随后将z0输入由L个Tran sformer Encoder模块堆叠而成的模型中进行高级语义特征提
取,
z′l=MHA(LN(zl‑1))+zl‑1, l=1...L
zl=MLP(LN(z′l))+z′l, l=1...L
zout=LN(zL)
其中, MHA代表Multi ‑Head‑Attention; MLP代表多层感知机; LN代表Layer
Normaliztion; L代表Transformer Encoder的总个数, l代表第l块Transformer Encoder;
z′l表示对上一层的输出zl‑1执行LN和MHA后再加上上一层的输出zl‑1所得到的结果; zl表示
对z′l执行LN和MLP后再加上z ′l所得到的结果, zout表示对zl做LN所得到的结果;
S55、 融合所述 三维视觉特征、 一维时序特 征和文本特 征对应的高级语义特 征; 包括:
将视觉特征和音频特征的模型输出
投影到文本特征空间得到zv→t、
za→t:
将
投影到语音特 征空间得到 zt→a、 zv→a;
将
投影到视觉特征空间得到 zt→v、 za→v;
其中,
权 利 要 求 书 2/4 页
3
CN 114898861 A
3
专利 基于全注意力机制的多模态抑郁症检测方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:53上传分享