(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211030862.X
(22)申请日 2022.08.26
(71)申请人 广州佰锐网络科技有限公司
地址 510665 广东省广州市天河区科韵路
16号自编第3栋701(01梯七层)(仅限
办公)
(72)发明人 不公告发明人
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 何卿华
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/34(2022.01)
G06V 10/36(2022.01)
G06V 10/44(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
(54)发明名称
一种数字人生成方法及系统
(57)摘要
本发明公开了一种数字人生成方法及系统,
所述方法根据深度自编码理论调用编码器分别
提取人脸图像与语音特征, 并在隐藏空间进行特
征融合, 建立语音与人脸特征关联关系, 然后将
融合特征输入经过预训练的GAN网络, 生成具有
动态变化的数字人图像序列, 并利用语音与人脸
的关联关系驱动数字人进行动态活动。 本发明提
出的数字 人可以被不同的语音所驱动, 且易于替
换人物形象, 不会出现畸形, 能有效提高数字人
的形象与展示效果; 而且在处理过程中对各个图
像进行修复与优化, 能进一步提高数字人的逼真
度和成像效果, 以满足不同领域的虚拟主持或数
字替身的应用需求。
权利要求书2页 说明书9页 附图4页
CN 115471886 A
2022.12.13
CN 115471886 A
1.一种数字人生成方法, 其特 征在于, 所述方法包括:
在获取语音数据以及包含背景和人脸的原始图像后, 融合所述语音数据与 所述原始图
像得到包 含人脸动态变化的数字人图像;
采用预设的人脸样本图像替换 所述数字人图像里的五官图像, 得到替换图像;
修复所述替换图像中已替换的五官特征, 并将修复后的替换图像与 预设背景图像进行
图像融合得到融合图像;
提取所述融合图像的人物特征, 并利用所述人物特征训练预设的GAN网络得到包含姿
势变化的数字人图像。
2.根据权利要求1所述的数字人生成方法, 其特征在于, 所述采用预设的人脸样本图像
替换所述数字人图像里的五官图像, 得到替换图像, 包括:
通过边缘检测算法对所述数字人图像的五官区域进行边缘检测, 得到五官区域信息,
其中, 五官区域包括: 眼部区域, 嘴巴区域, 鼻子区域, 耳朵区域, 眉区域和脸部轮廓区域;
基于所述五官区域信息从预设的样本空间中提取对应的人脸样本 图像, 其中, 预设的
样本空间由用户预设的图像样本和视频样本组成;
将所述人脸样本图像替换 所述五官区域信息对应的五官图像, 得到替换图像。
3.根据权利要求2所述的数字人生成方法, 其特征在于, 所述修复所述替换图像中已替
换的五官 特征, 包括:
对所述替换图像进行平 滑滤波处 理得到滤波图像;
获取所述滤波图像中的五官区域的边界信 息, 所述边界信 息为所述人脸样本图像与 所
述数字人图像的图像痕迹;
将所述边界信息融合至所述滤波图像中。
4.根据权利要求1所述的数字人生成方法, 其特征在于, 所述将修复后的替换图像与 预
设背景图像进行图像融合得到融合图像, 包括:
确定预设的背景图像的人脸区域信息;
按照所述人脸区域信息将修复后的替换图像拼接在预设背景图像中得到融合图像。
5.根据权利要求2所述的数字人生成方法, 其特征在于, 所述提取所述融合图像的人物
特征, 并利用所述人物特 征训练预设的GAN网络得到包 含姿势变化的数字人图像, 包括:
从所述融合图像中提取人物特征, 并获取预设的非人物特征, 其中, 所述预设的非人物
特征为用户的预设的视频样本里每一帧图像的姿势变化特 征;
对所述人物特 征与预设的非人物特 征进行特征融合得到融合特 征;
将所述融合特 征输入至预设的GAN网络中, 得到含有 姿势变化的数字人图像序列;
采用所述含有 姿势变化的数字人图像序列构建数字人图像。
6.根据权利要求1 ‑5任意一项所述的数字人生成方法, 其特征在于, 在所述利用所述人
物特征训练预设的GAN网络得到包 含姿势变化的数字人图像的步骤后, 所述方法还 包括:
将所述数字人图像与所述语音数据合成音视频 数据;
将所述音视频 数据发送至预设的用户终端, 以供用户查看。
7.根据权利要求1 ‑5任意一项所述的数字人生成方法, 其特征在于, 所述融合所述语音
数据与所述原 始图像得到包 含人脸动态变化的数字人图像, 包括:
确定所述原始图像的人脸区域, 并提取所述人脸区域的人脸关键点, 基于所述人脸关权 利 要 求 书 1/2 页
2
CN 115471886 A
2键点进行 人脸对齐得到人脸 正面图像;
调用预设的人脸编码器从所述人脸正面图像提取人脸特征, 以及调用预设的语音编码
器从所述语音数据中提取语音特 征;
对所述人脸特征和所述语音特征进行特征融合得到 融合特征, 并将所述融合特征输入
至预设的解码器混合得到包 含人脸动态变化的数字人图像。
8.一种数字人生成系统, 其特 征在于, 所述系统包括:
融合模块, 用于在获取语音数据以及包含背景和人脸的原始图像后, 融合所述语音数
据与所述原 始图像得到包 含人脸动态变化的数字人图像;
替换模块, 用于采用预设的人脸样本 图像替换所述数字人图像里的五官图像, 得到替
换图像;
修复模块, 用于修复所述替换图像中已替换的五官特征, 并将修复后的替换图像与预
设背景图像进行图像融合得到融合图像;
编辑模块, 用于提取所述融合图像的人物特征, 并利用所述人物特征训练预设的GAN网
络得到包 含姿势变化的数字人图像。
9.一种电子设备, 包括: 存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7任意一项 所述的数字
人生成方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可
执行程序, 所述计算机可执行程序用于使计算机执行如权利要求1 ‑7任意一项所述的数字
人生成方法。权 利 要 求 书 2/2 页
3
CN 115471886 A
3
专利 一种数字人生成方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:38:58上传分享