元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案

Xsens动作捕捉 2023-04-01 3900

元象自研的「端云协同」3D互动技术,能提供庞大、逼真、多人、轻量的次世代交互体验,「逼真体验」正是我们持续关注的课题之一。

本文聚焦「视频动捕」的话题,分为三大部分:1)动捕的概念与应用;2)穿戴式动捕与 AI 视频动捕的技术原理、优劣对比,AI 视频动捕的主流做法与难点;3)元象方案:针对难点做出的改进,包括透视投影相机模型等。

我们的方案在主流动捕技术的做法上有所创新,能够应用在各种角色驱动,希望给大众提供低技术门槛、高还原精度的视频动捕技术,带来便捷高效、准确自然的创作与视觉体验。

动捕的概念与应用

1)动捕是什么?

动作捕捉(motion capture,后称“动捕”)发源于转描技术(rotoscoping),迪士尼早期2D动画电影《白雪公主》、游戏《波斯王子》中就有使用。如今的动捕更多指穿戴式动捕技术,如光学动捕、惯性动捕等。使用穿戴式动捕设备以获取动捕演员身体的动作数据,并重建出精细的三维运动轨迹。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第1张
2D动画电影《白雪公主》用到的转描技术

2)应用在哪里?

近年来,动捕技术大量运用于影视游戏行业,如著名电影《阿凡达》、《猩球崛起》、《刺客信条》、《底特律:变人》等,都是从动捕演员身上采集动捕数据用于驱动虚拟角色。由于动捕数据完全基于人体上采集,重建出的动作能最大程度的还原人体姿态和动作效果,同时保持自然流畅,从而现代动捕技术能极大增强虚拟人物的表现力。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第2张
《底特律:变人》使用动捕技术驱动虚拟角色

不过当艺术家需要夸张的表现力时,有时会采用完全手工制作关键帧的方式,类似于转描技术,仅使用演员的动作作为参考。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第3张
爱死机第三季《吉巴罗》的人体动画参考了演员的动作

穿戴式动捕 vs AI 视频动捕

1)穿戴式动捕的技术原理是什么?

穿戴式动捕主要指光学动捕和惯性动捕,光学动捕是通过追踪光学动捕服上的标记,同步不同视角相机下的标记数据,使用三维重建算法重建出人体不同部位的运动数据;而惯性动捕则是通过记录穿戴设备上惯性传感器的数据得到运动数据,最后通过软件重建出三维运动轨迹并转换成骨骼动画,从而驱动虚拟角色。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第4张
光学动捕摄影棚

2)AI视频动捕的技术原理是什么?

随着深度学习的发展,单目图像的人体关键点检测、人体姿态预测等任务的准确度有了很大提升。同时,随着SMPL等参数化人体模型的发布,直接从单张图像预测带蒙皮的人体骨骼姿势成为可能。

AI视频动捕是从视频提取多张单帧图像,用AI算法对不同帧图像分别提取人体骨骼姿势,将人体骨骼姿势按时间顺序连接起来,形成骨骼动画数据,可以用来驱动虚拟角色。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第5张
论文《Expressive Body Capture: 3D Hands, Face, and Body from a Single Image》

3)穿戴式动捕&AI动捕的优劣势对比

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第6张

4)AI动捕的主流做法是?

主流AI动捕算法是基于参数化人体模型,如SMPL/SMPL-X,主要分为两类。

第一类算法是基于优化的算法,这类算法预先定义一些优化目标函数,这些优化目标函数通常由重投影误差、人体姿态先验正则项等组成,在预测时,先用人工标注或AI算法检测得到2D关键点,比如膝盖、手肘、肩膀等关节位置,然后通过迭代优化算法,找到使得目标函数值最优的一组参数化人体模型的参数,来表示当前图片中的人体骨骼姿势,这类算法的代表是SMPLify、SMPLify-X等。

第二类算法是数据驱动的算法,这类算法需要一个包含大量图片和对应的用现代动捕技术得到的骨骼姿势数据的训练数据集,在训练阶段,训练一个深度神经网络直接回归训练数据集的ground truth。在预测时,训练好的深度神经网络从图片特征中直接预测出一组参数化人体模型的参数,这类算法的代表是HMR、VIBE、PyMAF等。

这两类算法有各自的优劣势。基于优化的算法能较好的拟合肢体末端等部位的姿势,精度较高,但需要比较精确的2D关键点。此外由于这个优化问题是非凸的,存在很多次优解,并且受初始化影响很大,即使有人体姿势先验的约束,也比较容易拟合出扭曲或者不自然的人体姿势。数据驱动的算法从大量的数据中训练出的深度神经网络则不容易生成扭曲的姿势,但通常在肢体末端,如脚掌的预测结果较差,与图像中的姿势不符。

近年来越来越多的算法采用两者的结合,首先用数据驱动的算法预测出和图片比较接近的人体姿势,将其作为基于优化的算法的初始化,这样在调整姿势提高准确度的同时也能避免出现扭曲或者不自然的人体姿势,元象的方案也采用这种基于结合的算法。然而如果只是简单的结合两种算法,捕捉的骨骼动画数据质量依然比较低,在此基础上还需要进一步改进。

5)AI视频动捕的难点是?

由于视频是单目的,缺少多视角信息,因此在深度这一维的估计上精度不高,容易因为深度歧义性预测出错误的姿势。此外目前的AI动捕仅考虑局部的姿势的准确度,使用非常简单的相机模型,因此无法准确估计人体在三维空间中的确切位置,不能得到真实的全局移动轨迹。此外,直接按时间顺序连接起来的动作,没有考虑到时间这一维度上的信息,动作过渡不自然,并且由于没有考虑物理约束,存在抖动、滑步、自穿插和与地面穿插等不符合物理的问题。

元象方案:针对难点做出的改进

1)元象的视频动捕做了哪些工作?

(1)AI动捕算法常用的弱透视投影相机模型不能很好的估计全局位移中的深度位置。弱透视投影相机模型的假设条件是目标物体离相机足够远,因此目标物体自身的景深可以忽略不计。但是在AI视频动捕应用的场景中,被拍摄者往往离相机只有1-3米远,并且会有朝着相机方向或相反方向的动作和移动,因此弱透视投影相机模型的假设通常是不成立的。

针对估计深度位置并且预测全局移动轨迹的问题,我们提出使用能更好的处理深度信息的透视投影相机模型替换弱透视投影相机模型。为了得到透视投影相机模型所需要的相机姿态、焦距等参数,我们用真实数据和大量的合成数据训练了一个深度神经网络,从视频中估计这些参数。通过透视投影相机模型,基于优化的算法能比较好的微调包括深度在内的人体的全局移动轨迹,从而重建出高质量的动捕数据。

(2)在AI视频动捕算法的预测结果中,有很明显的滑步现象。由于离根骨骼越远的部位,例如位于肢体末端的手掌脚掌,往往会累积从根骨骼到末端骨骼路径上所有骨骼的预测误差,因此这些部位的抖动比较明显,并且由于误差的累积,位置往往很不准确,造成了在站立姿势时,脚掌仍然在移动改变位置的滑步现象。

针对滑步问题,我们根据物理约束提出针对性的后处理来消除滑步。首先我们训练一个深度神经网络分别预测两只脚掌是否处于站立的没有位移的状态,在后处理中,对于处于站立没有位移的状态的脚掌,我们约束其位置不发生移动且抑制平移的速度,这样就消除了站立时滑步的现象。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第7张
站立状态预测结果,红点表示在地面上且没有移动,反之用绿点表示

(3)在AI视频动捕算法的预测结果中,当预测的姿势出错时,手臂容易穿插到头部、躯干等部位里。此外当虚拟角色的风格比较偏卡通或幻想时,会有头或躯干相对来说比较大的模型,当动捕数据用于驱动这些虚拟角色时,也容易出现自穿插的现象。

针对自穿插问题,我们根据物理约束提出去除自穿插的后处理。在后处理中,会根据肢体的大小建立相应大小的胶囊体,并建立胶囊体之间碰撞的目标函数,通过优化迭代的方法,在尽可能少的改变原有姿势的情况下,找出胶囊体之间没有碰撞的姿势,以此解决自穿插问题。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第8张
胶囊体可视化

2)效果如何?

加入防滑步处理前后的对比如下所示。可以看到在防滑步处理前,双脚在站立姿态下有同时滑动的现象,这是不符合物理的。在防滑步处理后,两只脚会分别移动,没有处理前的违和感,并且站姿也更稳定不会飘动,说明我们的防滑步处理能去除滑步现象,视觉上更真实。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第9张
加入防滑步处理前后的对比

去除自穿插前后的效果对比如下所示。可以看到原本手臂会穿插进身体的现象被去除了,动作依然保持流畅连贯,并且与原视频内容一致,说明我们的去除自穿插的方法能比较好的处理自穿插的问题。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第10张
去除自穿插前后的效果对比

下面是和其他厂商的商业化产品的效果比较,下面所有的例子中,中间是我们的结果,左边和右边是其他厂商的产品的结果。

在下面原地踏步的例子中,左边的结果没有捕捉手指动作,并且没有还原出略微后退的位移,右脚掌也抬得不够高,有一种被粘在地面上的感觉。右边的结果能捕捉出后退的位移,但位移的幅度过大,并且在踏步动作中段,双脚有浮空。在我们的结果中,后退和踏步这些动作都能比较好的还原,效果也很自然。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第11张
简单的原地踏步动作的比较,中间的是我们的结果,注意原视频有一些后退的动作
元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第12张
原地踏步动作的局部细节放大

在下面击剑的例子中,左边的结果同样没有捕捉到全局位移,并且动作中段脚有浮空,而右边的结果能捕捉到全局位移,但是上身和头的朝向没有捕捉到,动作也有卡顿感,使得姿势很不自然。我们的结果能捕捉到全局位移,并且动作也更流畅自然,更接近原视频。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第13张
击剑动作的比较,中间的是我们的结果

在下面唱跳的例子中,左边和右边的结果都比较僵硬,并且结尾处的连续蹦跳都没有被还原出来,脚掌没有离地。而我们的结果更流畅自然,并且能还原结尾处的连续蹦跳。

元宇宙必备工艺!一文详解动作捕捉的分类、原理、应用与技术方案  第14张
唱跳动作的比较,中间的是我们的结果

谈完了我们元象的视频动捕技术,一起来看看以下唱跳视频,感受一下我们的技术成果。

元宇宙版偶像练习生主题曲EiEi

3)待优化点和未来方向?

元象的算法能得到自然流畅且准确的结果,但对于幅度比较小但高频的动作,比如小幅度的抖脚,有时还是捕捉不到。解决这个问题要求算法在能排除噪声的情况下有更高的精度,并且能更多地关注到局部区域的视觉特征。

另一个改进方向是引入更多的物理约束,使得肢体动作能更有重量感,减轻整体的飘浮感,使运动的速度、加速度和转动惯性等都能符合真实世界的物理规律,更接近穿戴式动捕捕捉的数据。

为更好地让读者体验元象技术方案,我们推出限量免费试用,可点击下方链接填写问卷申请。谢谢!

The End