备受关注的视觉动捕技术，到底有了哪些重大突破？

Xsens动作捕捉 2022-11-06 7685

最近，一部《哪吒之魔童降世》的热映，让原本快要凉凉的暑期档瞬间升温，上映首日票房过2亿，三天票房破7亿，接连打破动画片首日、单日、首周记录，被誉为“国漫之光”。不止《哪吒》，近年来国产动画市场上涌现了《白蛇·缘起》《大鱼海棠》《大护法》《齐天大圣》等一大批优秀作品，国内电影市场陷入萧条，但国漫市场却以一年一部爆款的节奏持续繁荣，行业人士纷纷表示国漫的春天是真的要来了。而从制作上看，这些动画都无一例外大量的应用了动作捕捉技术，市场繁荣的背后，是国内动作捕捉的技术越来越成熟，应用越来越广泛。

但当下，动捕领域依旧是门槛重重，尤其对普通企业来说，现阶段的主流动捕技术——惯性动捕和光学动捕，皆是费用太高，对设备和环境要求太多。于是，近年来更加方便、高效、低成本的动捕技术——视觉动捕应运而生，在全球范围内备受关注研究，并且被业内公认为未来的主流趋势。

太平洋未来科技自创立之初，就一直在视觉动捕上进行研究，通过不断的技术研发尝试、迭代、落地应用，现阶段已经取得了多重突破。

在聊之前，我们先来看看视觉动捕与传统惯性动捕和光学动捕的区别到底在哪。

惯性动捕

惯性动捕需要将传感器置于关节处，然后将位置和方向信息反馈至中央处理器以记录对象的运动行为。为了准确传送对象信息，传感器需要采用线缆或以无线方式将相关信息传送至中央处理器。对于前者，布线工程比不可少；对于后者，设备通常需要自身携带电源，如电池组。

惯性动捕的优点在于，各个传感器处的三维位置和方向信息可实时地记录并显示（存在少许延迟），小范围使用费用相对合理。但缺陷也是很明显的，其每次使用需要消磁，而且有可能陷入Gimbal lock，导致后期需要调整。其往往受限于磁场的范围和精度，空间定位不准，且出于设备原因，动作局限也比较多然。而且一个人就是一套装备，多人的话成本成倍增加。

光学动捕

光学动作捕捉包括主动光学捕捉和被动光学捕捉，主动主动光学捕捉采用红外led，速度大于240fps，工作环境限制较小，在室外也能操作，但容易导致运作变形，精度较差；被动光学捕捉慢一些，但是不需要在跟踪物上通电，问题就是成本高，需要大量帧率高的摄像头，被动光学式的技术相较成熟，一般情况下，被动光学式的实用性更强，应用范围更广，综合性能（动作精度、适用性、可拓展性、便捷性）更好些。

总体来看，光学捕捉相比惯性捕捉优势还是比较明显的，就是精度，目前主流的技术基本可以做到精度在毫米级别。但是光学动捕通常无法提供实时反馈，同时，源于光学系统的数据往往包含误差以及噪声。存在成本高昂、安装要求高、对空间结构要求高，不能有遮挡等问题。

而且不管是光学动捕还是惯性动捕，现阶段在虚拟交互上还存在许多难题：

从技术角度来看：

技术难点主要是延时，以及信号噪音导致的动作抖动，而且无法实现双手合十。

从产品角度上来说：

从心理学角度看，在虚拟环境中，人如果没有感知，动作会缓慢并延迟，无法待很长时间。而且很容易形成恐怖谷效应，出现类人却不是人的现象，让人极为不舒服。所以动捕产品绝对不是只要出个动作就可以，而是要真的像人。

视觉动捕

不同于上面动作捕捉的方式，视觉人体动作捕捉是通过高精度的相机从不同角度对运动的目标进行拍摄。当拍摄的轨迹被相机获取之后，程序会对这些运动帧进行处理和分析，并最终在电脑中还原出追踪目标的轨迹信息。

这种捕捉方式和传统动捕最大的优势就是不需要任何的穿戴设备，约束性很小，可以通过软件模拟计算出人体数字骨骼的关节点，再基于卷积神经网络的学习估计出做动作时骨架姿势的变化，随后在骨架模型上渲染出整个人身体的轮廓。

但现阶段的缺点是误差是几度（相比传统动捕的1度以内）,空间误差厘米到十几厘米（主要受到相机个数和动作是否自遮挡决定）。但是相比传统动捕技术高成本高要求，视觉动捕极大地降低了使用成本和门槛。而且视觉的自然交互体验感最好，人类的交互方式终究是以人的本能为主，在未来必将成为主流。

视觉动捕的技术困难与阶段目标及突破

虽然视觉动捕技术最近几年一直有在被国际顶尖团队研究，但基于关节型角色的建模和动画制作仍被视为一项艰巨的任务，当角色具有真实的人类外观时尤是如此，因为人物角色的正确表达需要处理多个问题。

究其原因：

首先：人物角色的外观已为人们所熟知，这使得每个人都成为了苛刻的观察员，稍有不自然，就会被迅速察觉。

其次：人体的结构尤其复杂，包含了200多块骨骼以及600多块肌肉，当对刚性链接肢体进行全方位建模时，工作量与工作难度就被大大增加。同时，躯体的可变性特征又进一步增加了建模的复杂性。

最后：由于文化、个性、遗传等因素的影响，人类的运动行为有着巨大的差异，这又再一次加大了建模的难度。

面对诸多困难，太平洋未来科技在视觉动捕的研发上，也是几经波折。

太平洋未来科技算法负责人Grey坦言：“我们刚开始入手这个方向的时候，市面上没有任何视觉动作捕捉产品。因此可以借鉴的经验很少，当时也走了一些弯路。

起初，我们参考传统动捕技术认为把相机数量减少到双目是一个选择，但是研发到后期，我们对双目无法处理遮挡以及精度问题不是很满意，因此在保证精度差不多的情况下我们选择了在单目环境下进行研发。这样就在消费端减少了很多硬件限制，消费者只要用手机上的相机就可以进行捕捉，非常方便。”

现阶段，从技术上来看，视觉动捕的需求被定义为捕捉包括面部和身体在内的完整运动。而目前的技术主要关注的是基本的骨骼从正面的运动，而不是其他的运动（如手臂和脚的微妙旋转）。还有从侧面的姿态估计，以及当身体的某些部分没有被捕捉到时，如何猜测姿势。

而在应用上，创建逼真的人体形态和动作已被视为一项新的技术，其应用场景非常广泛。这项研究的短期目标是使这项技术能够应用于许多不同的领域，而长远目标则是开发一套符合电影制作要求的单目/双目运动捕捉系统。在目标实现上可以分三个阶段:

第一阶段是静态三维姿态估计，它常被用于医学领域，如身体健康状况检测，它可以检测病人脊椎是否正常，然后根据检测结果科学判断病人症状，并指导他们的加强肩颈的活动与治疗。值得注意的是，该技术不需要考虑遮挡，由于数据可以在特定情况下采集，所以佩戴时的情况较为宽松，实现起来也相对简单。

行业新闻