安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111649445.9 (22)申请日 2021.12.3 0 (71)申请人 南京信息 工程大学 地址 224002 江苏省盐城市 盐南高新区新 河街道文港南路10 5号 (72)发明人 刘青山 帅惠 吴乐乐 (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 朱桢荣 (51)Int.Cl. G06T 7/73(2017.01) G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06K 9/62(2022.01) (54)发明名称 自适应多视图和时序特征融合的单人三维 姿态估计方法 (57)摘要 本发明公开了一种自适应多视图和时序特 征融合的单人三维姿态估计方法, 基于多相机的 视频序列图片为输入, 设计了一个鲁棒的特征提 取器来提取2D姿态特征; 基于2D姿态特征为输 入, 在相机维度上设计了一种自适应的视图自注 意力变换网络, 通过相对相机位置编码和自注意 力机制来融合任意数量的未标定相机下的二维 姿态, 获取多目融合的姿态特征; 基于多目融合 的姿态特征为输入, 在时间维度上设计一种时序 自注意力变换网络, 通过自注 意力机制自适应地 融合多帧特征, 获得最终的3D姿态。 本发明设计 合理, 无需重新训练可以直接应用到有任意数量 的未标定相机的场景 下且网络 计算量很小。 权利要求书4页 说明书8页 附图2页 CN 114511629 A 2022.05.17 CN 114511629 A 1.一种自适应多视图和时序特征融合的单人三维姿态估计方法, 其特征在于, 包括以 下步骤: 步骤一、 基于多相机的视频序列图片为输入, 通过一个鲁棒的特征提取器来提取2D姿 态特征; 步骤二、 基于2D姿态特征为输入, 在相机维度上设计了一种自适应的视图自注意力变 换网络, 通过相对相机位置编 码和自注意力机制来融合任意数量的未标定相机下的二维姿 态, 获取多目融合的姿态特 征; 步骤三、 基于多目融合的姿态特征为输入, 在时间维度上设计一种时序自注意力变换 网络, 通过自注意力机制自适应地融合多帧特 征, 获得最终的3D姿态。 2.根据权利要求1所述的一种自适应多视图和时序特征融合的单人三维姿态估计方 法, 步骤一中的特 征提取器具体如下: 第一步、 给定N个相机下的视频序列, 每个视频序列包含F帧图片, N ×F帧图片共享同一 特征提取器; 每帧图片I宽为W, 高为H, 每帧图片I包含R, G, B三个颜色通道, 是一个维度为 W×H×3的三维矩阵空间; 每张图片只包 含一个人; 特征提取器包括2D姿态检测器和3D姿态特征提取器, 对于每帧图片I, 首先采用2D姿态 检测器 预测2D姿态信息 其中, 关节 的总数为J, P2D、 C2D分别表 示J个关节的2D坐标和置信度, pj为第j个关节的2D坐标, cj为第j个关节的置信度; 第二步、 对于P2D和C2D, 分别将J个关节按照人体关节运动相关性分为G组: 其中, g∈{1, 2, ..., G}, 分别是P2D和C2D的第g个子集; 是一 个维度为2Jg的一维矩阵空间; 是一个维度为Jg的一维矩阵空间; 其中 表示第g组所有关节的索引, Jg为第g组关节的数量, pi和ci分别表示第i个 关节的2D坐标和置信度; 第三步、 3D姿态 特征提取器首先使用第一个全连接层 将第g组2D关节坐标 映 射为特征 是一个维度为C/2的一维矩阵空间; C表示组合G组关节的特征 得到的全局特 征的通道维度: 第四 步 、第 二 个 全 连 接 网 络 输 入 输 出 第 g 组 关 节的 映 射 矩阵 是一个维度为(C/2) ×2Jg的二维矩阵空间; 将 映射为 通道数为C /2的特征 用于调制 权 利 要 求 书 1/4 页 2 CN 114511629 A 2第五步、 对于G组中每一组来说, 将 和 相加后, 通过第g组的残差网络 进 一步提取空间信息, 得到第g组调节后的特 征 第六步、 将G组特征 拼接在一起, 通过第三个全连接层 映射为一个人 的全局特 征 是一个维度为C的一维矩阵空间; 其中 Concat(f1, f2,…, fG)表示将G组关节特 征进行拼接; 将N×F帧图片的全局特征拼接得到所有图片的特征X, 其中 是一个 维度为C×N×F的三维矩阵空间。 3.根据权利要求1所述的一种自适应多视图和时序特征融合的单人三维姿态估计方 法, 其特征在于, 步骤二中的视图自注意力变换网络由相对相 机位置编码器和视图自注意 力融合模块组成。 4.根据权利要求2所述的一种自适应多视图和时序特征融合的单人三维姿态估计方 法, 其特征在于, 步骤二中的视图自注意力变换网络是由以下步骤获得的: 步骤201、 在相机维度上, 由N个相机特征 拼接组成, 其中, v∈{1, 2, ..., N}, 是一个维度为C ×F的二维矩阵空间; 为第v个相机 的特征, 由第v个相机下F帧图片的全局特征拼接得到; 在相机特征融合过程中, 时序维度F 将省略, 即简化 为 v∈{1, 2, . .., N}; 步骤202、 视图自注意力变换网络首先通过神经网络自适应地学习相机之间的相对位 置关系, 输入第a个相机的查询变量 和第b个相机的键值变量 输出第a个相机和第b 个 相机之间的 相对位置关 系映 射方阵 Ma b和特征融 合 加权 系数 Aa b; 其中 , 分别表示第a个和第b个相机特征; 是一个维度为D ×D的二维矩阵空间; C=H×D; 其中, 和 是两个神经网络层, 它们共享同一个残差网络用于获取 和 之间的关系特 征; 然后使用第四、 五个全连接层分别输出Mab和Aab; 步骤203、 改变第b个相机的数值特征 的形状, 分成H个D维局部特征点 其中 为第b个相机下改变形状后的数值特征; 是一个维度为 D×H的二维矩阵空间; 然后通过Mab对 进行线性映射, 实现相对相机位置编码: 其中, 表示第a个相机对b个相机特征进行相对相机位置编码后的特征; 其中,权 利 要 求 书 2/4 页 3 CN 114511629 A 3
专利 自适应多视图和时序特征融合的单人三维姿态估计方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 04:44:09
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
SL-T 799-2020 水利数据目录服务规范.pdf
信通院 - 2022年上半年电子行业运行数据报告.pdf
GB-T 14695-2021 臂式斗轮堆取料机 型式和基本参数.pdf
GB-T 35965.1-2018 应急信息交互协议 第1部分:预警信息.pdf
GB-T 18029.26-2014 轮椅车 第26部分:术语.pdf
T-CIECCPA 009—2023 电动汽车退役动力蓄电池回收利用拆解 技术规范.pdf
SL-T 794-2020 堤防工程安全监测技术规程.pdf
GB-T 18090-2023 猪繁殖与呼吸综合征诊断方法.pdf
GB-T 13667.1-2015 钢制书架 第1部分:单、复柱书架.pdf
GB-T 42916-2023 铝及铝合金产品标识.pdf
GB-T 33540.3-2017 风力发电机组专用润滑剂 第3部分:变速箱齿轮油.pdf
GB-T 31506-2022 信息安全技术 政务网站系统安全指南.pdf
GB-T 12763.8-2007 海洋调查规范 第8部分 海洋地质地球物理调查.pdf
DB37-T 4221.9-2020 政务信息资源 数据集 人口 第9部分 生育保险信息.pdf
启明星辰 信创的现状及工程建设思路.pdf
YD-T 2698-2014 电信网和互联网安全防护基线配置要求及检测要求 网络设备.pdf
GB-T 34362-2017 无损检测 适形阵列涡流检测导则.pdf
GM T 0130-2023 基于SM2算法的无证书及隐式证书公钥机制.pdf
GB-T 3624-2023 钛及钛合金无缝管.pdf
GB 17354-1998 汽车前、后端保护装置.pdf
交流群
-->
1
/
3
15
评价文档
赞助2元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。