(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211015809.2
(22)申请日 2022.08.24
(71)申请人 功夫链 (上海) 体 育文化发展 有限公
司
地址 200040 上海市 静安区延安西路12 9号
2208室
(72)发明人 李翔 黄玉阔 韩潼瑜
(74)专利代理 机构 大连大工智讯专利代理事务
所(特殊普通 合伙) 2124 4
专利代理师 梁左秋
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/44(2022.01)
G06V 10/42(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
(54)发明名称
一种移动端实时人体姿态估计方法及系统
(57)摘要
本发明涉及姿态检测技术领域, 提供一种移
动端实时人体姿态估计方法及系统, 所述方法包
括: 步骤100, 利用图像采集设备采集检测图片;
步骤200, 将检测图片输入姿态识别模型的主干
网络中, 进行特征提取, 得到特征图; 其中, 所述
姿态识别模型, 包括: 主干网络、 多个反转置 卷积
层和一个卷积层; 所述主干网络采用MobileViT
网络; 步骤300, 将主干网络输出的特征图, 依次
输入多个 反转置卷积层和一个卷积层, 得到人体
关键点的热力图; 步骤400, 根据热力图, 预测出
最终的人体关键点信息, 实现人体姿态估计。 本
发明能够保证网络的轻量化, 大降低模型参数量
和计算量, 提高检测速度。
权利要求书1页 说明书5页 附图1页
CN 115359514 A
2022.11.18
CN 115359514 A
1.一种移动端实时人体姿态估计方法, 其特 征在于, 包括以下 过程:
步骤100, 利用图像采集设备采集检测图片;
步骤200, 将检测图片输入姿态识别 模型的主干网络中, 进行特征提取, 得到特征图; 其
中, 所述姿态识别模型, 包括: 主干网络、 多个反转置卷积层和一个卷积层; 所述主干网络采
用MobileViT网络;
步骤300, 将主干网络输出的特征图, 依次输入多个反转置卷积层和一个卷积层, 得到
人体关键点的热力图;
步骤400, 根据热力图, 预测出最终的人体关键点信息, 实现人体姿态估计。
2.根据权利要求1所述的移动端实时人体姿态估计方法, 其特征在于, 所述MobileViT
网络, 包括: 依次设置的3*3 卷积模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模
块、 Mobilenetv2模块、 Mobilenetv2模块、 MobileViT Block模块、 Mobilenetv2模块、
MobileViT Block模块、 Mobi lenetv2模块、 Mobi leViT Block模块。
3.根据权利要求2所述的移动端实时人体姿态估计方法, 其特征在于, 所述3*3卷积模
块采用降采样2倍, 第二个、 第五个、 第六个和第七个Mobi lenetv2模块均采用降采样2倍。
4.根据权利要求3所述的移动端实时人体姿态估计方法, 其特征在于, 所述MobileViT
Block模块里包 含Transformer Encoder模块。
5.根据权利要求4所述的移动端实时人体姿态估计方法, 其特征在于, 所述
Transformer Encoder模块具有自注意力机制;
Transformer Encoder模块内部经过多头注意力机制后, 输出的特征向量经过二个全
连接层, 然后进行层归一 化操作。
6.根据权利要求1或5所述的移动端实时人体姿态估计方法, 其特征在于, 所述反转置
卷积层的数量是三个, 所述卷积层是1*1卷积层。
7.一种移动端实时人体姿态估计系统, 其特征在于, 包括: 采集模块、 特征提取模块、 反
转置卷积处 理模块和输出模块;
所述采集模块, 用于利用图像采集设备采集检测图片;
所述特征提取模块, 用于将检测图片输入姿态识别模型的主干网络中, 进行特征提取,
得到特征图; 其中, 所述姿态识别模型, 包括: 主干网络、 多个反转置卷积层和一个卷积层;
所述主干网络采用Mobi leViT网络;
所述反转置卷积处理模块, 用于将主干网络输出的特征图, 依次输入多个反转置卷积
层和一个卷积层, 得到人体关键点的热力图;
所述输出模块, 用于根据热力图, 预测出最终的人体关键点信息, 实现人体姿态估计。权 利 要 求 书 1/1 页
2
CN 115359514 A
2一种移动端实时人体姿态估计方 法及系统
技术领域
[0001]本发明涉及姿态检测技术领域, 尤其涉及 一种移动端实时人体姿态估计方法及系
统。
背景技术
[0002]2D人体姿态估计(Human Pose Estimation, HPE)是视觉的重要任务, 核心任务是
检测视频或图片里 的人体手部、 肩、 胯部等各个关节点信息, 是很多任务的铺垫工作。 人体
姿态估计在智慧社区、 安全校园、 A I游戏互动等领域应用越来越广。 为了确保各个场景的速
度和精度, 提高人体姿态估计的速度和精度是及其核心的任务。
[0003]最近十年, 深度学习蓬勃发展, 已经广泛应用到2d人体姿态估计中。 在深度学习领
域, 出名的效果棒的人体姿态关键点算法有基于resnet为主干网络的SimpleBaseline方
法, 保持多分辨 率并行的Hrnet, 并行子网络的多尺度特 征融合让速度很慢。
[0004]当前的2D人体姿态估计主要是采用传统的纯卷积网络, 研究存在参数量大, 计算
复杂, 推理速度 慢的问题, 尤其对于移动端等计算资源十 分有限的场景。 在移动端进 行2D姿
态的研究部署时, 很难达到网络性能和部署环境的平衡: 在保证高鲁棒性高精度的同时很
难保证高的检测速度。 基于传统的计算机视觉技术, 很难在最新的移动端达到功耗小且高
精度, 移动端设备性能与网络计算复杂度难以平衡。
[0005]综上所述, 现有的移动端人体姿态估计方法主要是采用传统的纯卷积网络, 无法
对复杂的场景有好的鲁棒 性, 很难对人体姿态进行高精度和高速度的实时估计。
发明内容
[0006]本发明主要解决现有的移动端人体姿态估计方法主要是采用传统的纯卷积网络,
无法对复杂的场景有好的鲁棒性, 很难对人体姿态进 行高精度和高速度的实时估计等技术
问题, 提出一种移动端实时人体姿态估计方法及系统, 以保证网络的轻量化, 大降低模型参
数量和计算 量, 提高检测速度。
[0007]本发明提供了一种移动端实时人体姿态估计方法, 包括以下 过程:
[0008]步骤100, 利用图像采集设备采集检测图片;
[0009]步骤200, 将检测图片输入姿态识别模型的主干网络中, 进行特征提取, 得到特征
图; 其中, 所述姿态识别模型, 包括: 主干网络、 多个反转置卷积层和一个卷积层; 所述主干
网络采用Mobi leViT网络;
[0010]步骤300, 将主干网络输出的特征图, 依次输入多个反转置卷积层和一个卷积层,
得到人体关键点的热力图;
[0011]步骤400, 根据热力图, 预测出最终的人体关键点信息, 实现人体姿态估计。
[0012]优选的, 所述MobileViT网络, 包括: 依次设置的3*3卷积模块、 Mobilenetv2模块、
Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 Mobilenetv2模块、 MobileViT
Block模块、 Mobilenetv2模 块、 MobileViT Block模块、 Mobilenetv2模 块、 MobileViT Block说 明 书 1/5 页
3
CN 115359514 A
3
专利 一种移动端实时人体姿态估计方法及系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:39:29上传分享