专利 一种数字人生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211030862.X (22)申请日 2022.08.26 (71)申请人广州佰锐网络科技有限公司地址 510665 广东省广州市天河区科韵路 16号自编第3栋701(01梯七层)(仅限办公) (72)发明人不公告发明人　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师何卿华 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/34(2022.01) G06V 10/36(2022.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称一种数字人生成方法及系统 (57)摘要本发明公开了一种数字人生成方法及系统，所述方法根据深度自编码理论调用编码器分别提取人脸图像与语音特征，并在隐藏空间进行特征融合，建立语音与人脸特征关联关系，然后将融合特征输入经过预训练的GAN网络，生成具有动态变化的数字人图像序列，并利用语音与人脸的关联关系驱动数字人进行动态活动。本发明提出的数字人可以被不同的语音所驱动，且易于替换人物形象，不会出现畸形，能有效提高数字人的形象与展示效果；而且在处理过程中对各个图像进行修复与优化，能进一步提高数字人的逼真度和成像效果，以满足不同领域的虚拟主持或数字替身的应用需求。权利要求书2页说明书9页附图4页 CN 115471886 A 2022.12.13 CN 115471886 A 1.一种数字人生成方法，其特征在于，所述方法包括：在获取语音数据以及包含背景和人脸的原始图像后，融合所述语音数据与所述原始图像得到包含人脸动态变化的数字人图像；采用预设的人脸样本图像替换所述数字人图像里的五官图像，得到替换图像；修复所述替换图像中已替换的五官特征，并将修复后的替换图像与预设背景图像进行图像融合得到融合图像；提取所述融合图像的人物特征，并利用所述人物特征训练预设的GAN网络得到包含姿势变化的数字人图像。 2.根据权利要求1所述的数字人生成方法，其特征在于，所述采用预设的人脸样本图像替换所述数字人图像里的五官图像，得到替换图像，包括：通过边缘检测算法对所述数字人图像的五官区域进行边缘检测，得到五官区域信息，其中，五官区域包括：眼部区域，嘴巴区域，鼻子区域，耳朵区域，眉区域和脸部轮廓区域；基于所述五官区域信息从预设的样本空间中提取对应的人脸样本图像，其中，预设的样本空间由用户预设的图像样本和视频样本组成；将所述人脸样本图像替换所述五官区域信息对应的五官图像，得到替换图像。 3.根据权利要求2所述的数字人生成方法，其特征在于，所述修复所述替换图像中已替换的五官特征，包括：对所述替换图像进行平滑滤波处理得到滤波图像；获取所述滤波图像中的五官区域的边界信息，所述边界信息为所述人脸样本图像与所述数字人图像的图像痕迹；将所述边界信息融合至所述滤波图像中。 4.根据权利要求1所述的数字人生成方法，其特征在于，所述将修复后的替换图像与预设背景图像进行图像融合得到融合图像，包括：确定预设的背景图像的人脸区域信息；按照所述人脸区域信息将修复后的替换图像拼接在预设背景图像中得到融合图像。 5.根据权利要求2所述的数字人生成方法，其特征在于，所述提取所述融合图像的人物特征，并利用所述人物特征训练预设的GAN网络得到包含姿势变化的数字人图像，包括：从所述融合图像中提取人物特征，并获取预设的非人物特征，其中，所述预设的非人物特征为用户的预设的视频样本里每一帧图像的姿势变化特征；对所述人物特征与预设的非人物特征进行特征融合得到融合特征；将所述融合特征输入至预设的GAN网络中，得到含有姿势变化的数字人图像序列；采用所述含有姿势变化的数字人图像序列构建数字人图像。 6.根据权利要求1 ‑5任意一项所述的数字人生成方法，其特征在于，在所述利用所述人物特征训练预设的GAN网络得到包含姿势变化的数字人图像的步骤后，所述方法还包括：将所述数字人图像与所述语音数据合成音视频数据；将所述音视频数据发送至预设的用户终端，以供用户查看。 7.根据权利要求1 ‑5任意一项所述的数字人生成方法，其特征在于，所述融合所述语音数据与所述原始图像得到包含人脸动态变化的数字人图像，包括：确定所述原始图像的人脸区域，并提取所述人脸区域的人脸关键点，基于所述人脸关权　利　要　求　书 1/2 页 2 CN 115471886 A 2键点进行人脸对齐得到人脸正面图像；调用预设的人脸编码器从所述人脸正面图像提取人脸特征，以及调用预设的语音编码器从所述语音数据中提取语音特征；对所述人脸特征和所述语音特征进行特征融合得到融合特征，并将所述融合特征输入至预设的解码器混合得到包含人脸动态变化的数字人图像。 8.一种数字人生成系统，其特征在于，所述系统包括：融合模块，用于在获取语音数据以及包含背景和人脸的原始图像后，融合所述语音数据与所述原始图像得到包含人脸动态变化的数字人图像；替换模块，用于采用预设的人脸样本图像替换所述数字人图像里的五官图像，得到替换图像；修复模块，用于修复所述替换图像中已替换的五官特征，并将修复后的替换图像与预设背景图像进行图像融合得到融合图像；编辑模块，用于提取所述融合图像的人物特征，并利用所述人物特征训练预设的GAN网络得到包含姿势变化的数字人图像。 9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7任意一项所述的数字人生成方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1 ‑7任意一项所述的数字人生成方法。权　利　要　求　书 2/2 页 3 CN 115471886 A 3

专利 一种数字人生成方法及系统

专利一种数字人生成方法及系统