虚拟人应用技术及分类

Xsens动作捕捉 2023-05-11 4823

概述:虚拟数字人作为新一代人机交互平台,其发展与制作技术息息相关,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等技术打造而成,而虚拟人又通过人物形象、语音生成、动画生成、音视频显示、交互五个模块构成,大概可以分为两大类:2D虚拟人和3D虚拟人。

2D虚拟人:2D虚拟人根据真人形象建模,和真人相似度极高,主要应用有金融 、医疗、保险,地产传统企业的客服等,可进行多轮对话交互,但不可旋转,虚拟人姿态有限,服饰、发型等外观不支持自由修改,形象相对固定。2D虚拟人不能应用在3D场景里,不能进行3D呈现,同时也不能应用在VR、AR及游戏中。

3D虚拟人:3D虚拟人风格多样化,且可以自由打造风格化外观,应用场景广泛,主要应用场景有内容创作、IP打造、创意类内容打造,具备多交互、多形态、自由修改的特点,可与真实场景搭配进一步提升写实效果。

? 建模

2D虚拟人:2D虚拟人普遍使用静态扫描技术制作,即通过40-60个照相机对真人进行全方位拍照,根据拍照光线和角度进行矩阵扫描,从而在软件中呈现出2D立体形象。静态扫描技术仅需拍照搭配上少量所需数据,就能以较低的成本制作出2D虚拟人形象。

虚拟人应用技术及分类  第1张

2D虚拟主播

3D虚拟人:3D虚拟人建模对于软件和技术要求较高,采用动态扫描技术,将采集到的光影效果或是照片数据,通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件、纹理融合组件等搭配合成多模态3D模型,除真人形象外,包括卡通、二次元等类型。

虚拟人应用技术及分类  第2张

3D虚拟人

? 驱动

1.面部表情

2D、3D虚拟数字人嘴型动作智能合成底层逻辑类似、均建立在输入文本到输出音频与输出视觉信息的关联映射。

2D虚拟人:主要通过视频算法呈现,已采集到的文本到语音和嘴型视频的数据进行模型训练,得到一个输入任意文本均可驱动嘴型的模型,再搭配语音自动识别,对语音进行标注、绑定数据与动作,这样形成虚拟人可对某个特定词语或特定语境做出相应的动作,但动作有限,且重复固定,一般只能呈现正面的形象。

3D虚拟人:驱动方式多样,包括视频算法训练、语音自动识别和动捕设备采集等。通过3D模型与其相对应的BlendShape向量来表达,可呈现三维立体形象、动作灵活、可随意驱动的3D虚拟人形象。

虚拟人应用技术及分类  第3张

嘴型动作合成逻辑

2.全身动作

目前动作捕捉技术是最成熟且呈现效果最好的动作生产方式,可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。其中光学捕捉精度最高、对环境要求最高且硬件成本最高,惯性捕捉抗遮挡能力最强,视觉捕捉算法开发难度最大。

动捕服:需要真人穿戴一整套动捕设备,动捕设备与真人肢体动作相绑定,可实时传递到虚拟人身上。

光学动作捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务,即在真人身上粘贴能够反射红外光的马克点,通过摄像头对反光马克点的追踪,从而对真人动作进行捕捉。

惯性动作捕捉:基于惯性测量单元IMU来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪、磁力计的IMU绑定在人体特定骨骼节点上,通过算法对测量数据进行计算,从而完成动作捕捉

虚拟人应用技术及分类  第4张

光学捕捉、惯性捕捉、视觉捕捉对比图

? 渲染

渲染技术分为实时渲染技术和离线渲染技术,随着硬件能力提升和算法突破,虚拟数字人的真实性和实时性将大幅提升。二者在渲染时长、计算资源、计算量等方面存在差异,所对应应用场景亦有所不同。

实时渲染:将图形数据实时计算输出,每一帧都是针对当时实际的环境光源、相机位置和材质参数计算出来的图像。渲染花费时间较短,但受限于时限要求计算资源一般不能及时调整。实时渲染多用于3D虚拟人。

离线渲染:图像数据并非实时计算与输出。渲染时间相对较长,计算资源丰富,受时限限制有限,可临时调整更多计算资源。离线渲染多用于2D虚拟人。

? 虚拟数字人发展趋势

虚拟数字人产业生产及运营成本高,优劣差异化显著,受众群体不断拓展,因而虚拟数字人价值凸显,应用领域不断拓展,未来有望加速商业化进程。

标签:虚拟数字人、建模、驱动、渲染

The End