加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长资讯 > 评论 > 正文

数字人黑科技面世

发布时间:2021-04-20 13:11:56 所属栏目:评论 来源:互联网
导读:到下依次为三星虚拟数字人 Neon、虚拟偶像洛天依、电影角色阿丽塔。 据爱奇艺早前发布的《2019 虚拟偶像观察报告》,当今中国至少有 3.9 亿人正在关注虚拟偶像。在抖音、快手和 B 站等各大短视频平台上,至少活跃着上万名数字虚拟人主播。不仅在泛娱乐领域,

到下依次为三星虚拟数字人 Neon、虚拟偶像洛天依、电影角色阿丽塔。

据爱奇艺早前发布的《2019 虚拟偶像观察报告》,当今中国至少有 3.9 亿人正在关注虚拟偶像。在抖音、快手和 B 站等各大短视频平台上,至少活跃着上万名数字虚拟人主播。不仅在泛娱乐领域,数字虚拟人还为其他一系列社会化应用提供了广阔的想象空间:虚拟医生、虚拟教师、虚拟客服、虚拟导购等等。

作为人机交互的重要媒介,如何高效构建虚拟人逼真的外表形象、自然的神态与动作,一直是该领域备受关注的研究热点。其中,基于传统计算机图形学与动画制作技术,构建生动且逼真的虚拟人行为动态(如与语音内容符合的嘴型与表情等)需要专业且复杂的人力工作,这大大限制了虚拟数字人的广泛应用。近年来,基于深度学习方法的虚拟人构建技术取得了较好的突破。然而,现有基于学习的方法中,无论是基于图像的生成对抗网络(GAN)方法,还是基于三维人脸重建模型的人脸编辑 - 渲染方法,存在依赖大量训练数据、生成结果质量不佳等问题。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作为例,为了实现针对奥巴马单一角色的语音驱动,该方法使用了奥巴马本人高达 14 个小时的视频训练数据,才能保证最终较好的图像和视频效果。而众多基于 GAN 的人脸语音驱动工作,则受限于 GAN 模型本身的训练复杂度,通常只能输出不超过 256x256 分辨率的语音到动态神经辐射场的跨模态映射:为了刻画说话人脸、躯干以及背景的高质量细节与动态,作者们将 DeepSpeech 语音特征同最新的神经辐射场方法(NeRF)相结合,即建模一个隐式函数 F,其输入包括假设的相机位置,视线方向,以及对应的语音特征,输出沿每条射线上连续位点的颜色与密度值,通过沿射线积分,确定该射线指向的像素点的最终颜色值。

(2)完整、稳定的头部与身体躯干合成:针对人脸说话过程中脸部与躯干运动并非完全统一的现象,作者们将原始的神经辐射场模型拆分成了两个各自分工的隐式模型表示。首先,他们对训练数据中每帧图像进行了语义分割,其中人脸部分使用多帧连续光流估计出三维运动参数,直接转换为假设的相机外参,用于训练针对人头部分的神经辐射场。而身体模块,则在人头模型的基础上,将人头运动参数作为额外的条件信息,用于控制身体部分的建模

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读