数字人动作捕捉和面部捕捉（Motion Capture）

Xsens动作捕捉 2023-04-03 9612

动作捕捉是在运动物体的关键部位设置跟踪器。英文名称Motion capture,简称Mocap。Mocap应用方面有电影行业、动画产业、运动分析、虚拟现实等。
动作捕捉一般可分为人体四肢动作捕捉、人脸面部表情捕捉、人手动作捕捉^[1]三个方面。

简介

我们今天所说的动作捕捉，通常是指在3D游戏或动画中，通过传感器和软件，把真人演员的动作转录成数字模型的动作。

众所周知，动画和游戏中的角色（包括人物和动物）必须要有动作，比如奔跑、跳跃、打斗等等。

在动作捕捉技术出现之前，这些动作都是需要人工一帧一帧画上去的。无论是2D还是3D，动画还是游戏，都要求动画师/动作师根据感觉和经验，一点一点手调关键帧，把角色的动作逐帧模拟出来。

现在的动捕技术，已经从肢体动作推进到了面部动作，也就是我们常听到的“面捕”。面捕的原理和动捕差不多：给真人演员戴上装有传感器的头套，演员的面部表情会被记录在电脑里，生成面部动作数据，然后再把这些数据套用在数字角色上。

面部捕捉表情捕捉

经历了20世纪末的不断完善后，动捕技术在21世纪开始了全面普及。2000年的动画《辛巴历险记：迷雾之外》是第一部完全使用动捕技术拍摄的电影，后来大获成功的《指环王》三部曲实现了全动捕化。如今的好莱坞电影已经是动捕技术的天下了。

动捕技术的优点非常突出。一是效率高，所见即所得，不需要动画师绞尽脑汁去想象复杂的动作；二是成本低，虽然一套动捕设备的价格不菲，但由于可以大批量生产动作，而且速度很快，可以节约巨大的时间成本，平摊到每个动作上往往都很便宜；三是入门门槛低，不太依赖大神动画师，对于小团队来说非常友好。

以下会介绍动作捕捉的相关参数、应用领域，以及常见的动捕品牌

动作捕捉分为5类，声学式、光学式、惯性式、电磁式、机械式动作捕捉5类。而现在主流的动作捕捉类型主要是惯性式和光学式。

动作捕捉解决方案一般都是硬件加软件的组成（光学式硬件是至少三个以上摄像机，软件主要用来计算和后期处理标记点的三维空间位置。惯性式硬件大多都是绑带+若干个IMU）。

光学式主要有被动光学式和主动光学式两种，两者区别就是标记问题，主动标记和被动标记，主动标记自发光，被动标记反射光（涂逆反射材料）。光学式精度高，一个标记点位通过2台以上摄像机拍摄就可以测量出标记点的三维空间位置，但惯性式是通过估计IMU的三维空间位置的，精度自然不如光学式，所以光学式应用的领域大多都是运动估计、电影、动画产业。光学式精度虽高，价格也贵，好一点的系统大多都要百万级。

惯性式主要用的是IMU，IMU主要由陀螺仪、磁力计、加速度计等组成，将IMU放置在人体上，可以测量转向，运动加速度和位置变化。惯性式价格便宜，对于精度要求不高的应用下很适用，所以线下体验店和专业用户大多都会选择惯性式。但是惯性式使用时间一长就会发生位置漂移，这也是一大劣势。

一、动作捕捉技术简介与相关参数

动作捕捉是对物体运动进行记录的一种手段，从技术原理上分为光学、惯性、视觉这主要的三类，这里只介绍光学动捕。

我们会在一些网络视频中看到一个挂了很多摄像头的场地，几个演员一袭黑衣，站在中间表演着各种动作，然后电脑里会有对应的骨骼运动，这就是光学动作捕捉。光学动作捕捉主要设备就是两个，一个是摄像头，另一个是反光标记球（Marker），摄像头会发出特定波长的光，经Marker反射后，每个摄像头里都有Marker的二维坐标，经软件的3D重建算法计算后，Marekr在场地里的三维坐标就能得到。摄像机以一定频率传送坐标给软件计算，那么我们就有了不同时间的Marker坐标数据，时间与坐标就是动捕系统能得到的两个原始数据，据此，软件能计算出速度、加速度矢量以及刚体的六自由度位姿信息。把这些信息导入到MotionBuilder里做修复，再导入到3dMax、Unreal等软件里与模型绑定，就能得到我们常见的动捕动画效果了。

所以频率肯定是一个动捕设备的重要参数，这一点在科研应用中尤其重要，没有高频的数据反馈，就不能达到实时的控制效果。那动捕还有那些参数呢——分辨率、像素、视场角等等，介绍起来实在复杂，我们不妨从实用性需求角度去看参数，首先是精度需求，精度越高动作越准确，体现在参数上是分辨率和像素数，懂摄影的朋友应该能明白，不做过多介绍；其次是实时反馈需求，这在科研和虚拟直播中比较重要，体现在参数上是频率和延迟，频率已经介绍过，延迟是数据从捕捉到给出坐标的时间，一般都为毫秒级别；还有就是捕捉范围需求，体现在参数上就是视场角与视距，这决定了同一片场地所需摄像头的多少，做成本控制时需要计算。

二、动作捕捉技术的应用领域

动作捕捉目前主要应用在两个领域，一个是科研，一个是文娱。大家应该对文娱领域动作捕捉的应用了解地更多一些，我们在网上看到的视频往往是动作捕捉在影视、直播方面的应用。

但动作捕捉最开始是一个科研工具，用于生物力学中的研究。在人或者其它生物身上附着Marker，捕捉其运动轨迹，计算出每个marker的运动矢量，从而得到自己想要的信息。比如医院里会集成一套设备，去捕捉患者的静态姿势和步态信息，从而对其健康状态做监测；一些体育研究所也会捕捉运动员的运动过程，从而对其竞技姿势做相应指导。

科研上除了生物力学领域，还有一种常见的应用场景是自动化领域研究。无人机集群，无人车编队的研究中需要有实时的6自由度信息反馈，以形成控制闭环。光学动捕往往是解决这一问题的较好方案。

在文娱领域，动作捕捉技术能大大提高动作资源的产出效率，并且使动作更加真实。效率问题是主要问题，一些RPG游戏中会存在大量的NPC，他们的动作相对主角并不重要，不需要炫丽的表现，但是量又会比较大，这时选用动捕设备去捕捉会有较大优势。我接触过一些音舞游戏公司和3D影视制作公司，也都有自己的动捕棚。

最近元宇宙很火，我没有做深入了解，但是接触过动捕在虚拟直播和VR领域的应用。简易的虚拟直播对设备精度的要求并不高，一套惯性动捕甚至是视觉动捕就可以解决肢体的捕捉问题，面部表情捕捉用苹果手机自带的ARKit来做就可以，在直播平台上搜虚拟主播会发现有很多这样的内容。VR领域我曾搭建过一个简单的场景，在眼镜上放几个Marker，再把坐标对应一下，人就可以在虚拟场景里自由探索了，如果手上拿了枪或者刀的模型，也可以捕捉下来对应到场景中，形成一种更有趣的交互。

三、国内外常见动捕品牌

动捕技术是国外传来的技术，知名品牌都在国外，光学式解决方案比较出名的，国内：Nokov、uSens、青瞳视觉，国外：美国魔神（Motion Analysis）、英国Vicon，美国OptiTrack，还有Xsens是惯性动捕，其它的光学动捕各有特点。

魔神和Vicon差不多，技术最强，解决方案最多的厂商，但同样价格也是最贵的，具体有多贵，可以自己去官网看看哈，一般是国企或者不差钱的大企业用，像SMG与腾讯都是用的Vicon；Nokov价格比魔神Vicon便宜点，但是顶级的硬件摄像机方面做的跟魔神和Vicon差不多，Optitrack价格便宜点，精度不如上面三个，已经被中国的利亚德收购，在我看来是性价比最高的，各参数都够用，重点是影视游戏领域的解决方案完善，大多数影视动捕棚配的都是这个；Qualisys解决方案主要集中在生物力学上，水下也能做，算是冷门中的高手吧；魔神已经死了，我说的哈哈。

国内光学动捕从南到北主要有三家，瑞立视、青瞳视觉、度量科技，其它还有不少我背不过来了，不过这不重要，国内的设备主要特点就是便宜，但稳定性和解决方案的丰富度会差些，毕竟外国的动捕技术发展那么多年，肯定成熟一些。惯性的有诺亦腾，印象一直不错的。

这四大厂家最好的摄像机配置就如下图，一般帧率越高，分辨率越高，延时越低，动作捕捉系统精度方面自然更强啊。举个例子，一般传感器的分辨率越高，从标记中获得的细节就越多，跟踪就越精准。

惯性式动捕

介绍完光学式动捕，接下来就是惯性式动捕，惯性式动捕国内：诺亦腾，幻境，国承万通。国外主要就是Xsens。诺亦腾的Preception Neuron系列的Preception Neuron Pro和Preception Neuron 2还是蛮不错的，也比较有市场。Xsens是惯性式动捕的开山鼻祖，他们根据不同的应用有不同的动捕解决方案（软件：MVN Animate，MVN Analyze 硬件：MVN Link套装，MVN Awinda）。

挑战

影响数据精度的三大因素^[2]

镜头分辨率：被捕捉的Marker点在镜头画面中以像素形式呈现，当这个点在镜头中越接近圆形，它被提取到的坐标就会越准。
镜头频率：镜头频率越高，相同时间内采集到的图像数据越多，得到的三维空间运动轨迹数据也就越精确。
镜头数量：镜头的数量越多，获取到的数据就越稳定。

数据精度直接影响被捕捉物体的点速度数据、点加速度数据、刚体六自由度数据。NOKOV度量科技可提供多款型号光学动捕设备，根据不同制作需求使用。其中MARS 12H 动捕相机可达到分辨率1200万像素，频率300赫兹，作为科学级动作捕捉设备，可轻松提供最细腻的动作细节。”

难点

动作过渡transition

动捕数据处理，最难部分之一就是人类动作本身做不到严格归位。也就是说你每跑出去一步，落脚的点可能都略不一样。这样动作循环的时候要手修动捕数据到衔接POSE相同。我们找遍了国内的动作外包，所有号称能动捕的团队，都没有这方面的经验。让我们自己研究，效果和效率不见得就比手K强多少。

2. 人力成本巨大。

其实也可以认为还是数据处理的问题，上面是难，这个是繁琐量大。动捕原始数据帧间隔是不固定的。因为动捕最初为电影服务，电影不需要你有固定的帧率。但是游戏动作需要稳定的帧率做融合、做动作变速等等功能。于是所有动捕数据都有个巨大的工作量，需要去人力抽帧优化原始数据。人力成本可能和重做一条差不了多少。

3. 找到合适的演员很困难。

我们找不到合适的渠道，找合适的演员来做这个事情。直觉上，军事类游戏，找个军人可能比较好。于是找了半天找到个现役军人，去棚里撸一遍，最后出来的结果，我们自己都觉得还不如手K。真实是真实，但是欠缺表演，标准可能是标准了，不帅。国内的武行武指水深，我们还摸不清里面的门道。而且人家自己也是各种影视经验，完全没有游戏相关的经验，沟通成本巨大。