动作捕捉技术之分类与发展史

Xsens动作捕捉 2022-10-31 13520

文中提到的惯性动作捕捉设备(xsens mvn);虚拟现实头盔(Oculus Rift);Manus VR虚拟现实手套,国内搜维尔科技都有库存,并提供售后技术支持,欢迎咨询!点击“阅读原文”了解更多!

动作捕捉(英文:Motion capture,以下简称动捕)是利用外部设备来对人或者其他物体的位移或者活动进行处理和记录的技术。由于采集的信息可以广泛应用于虚拟现实、游戏、人体工程学研究、模拟训练、生物力学研究等诸多领域,因此这项技术拥有比较广泛的市场前景和价值。动作捕捉其实是一个比较泛的概念,它并不限定捕捉的对象,除了人和物体,也可以是其他生物,或者个体的局部信息。例如现在大家所常见的面部捕捉或者手指的运动追踪,这两个部位的捕捉也被称为Performance capture。

动作捕捉技术之分类与发展史  第1张

              xsens 惯性动作捕捉系统+manus VR手套

动作捕捉技术之分类与发展史  第2张

                         xsens 惯性动作捕捉系统+manus VR手套+HTC头盔

动作捕捉技术之分类与发展史  第3张

                          xsens 惯性动作捕捉系统应用界面

说到动捕,一般业内首先想到的都是惯性动作捕捉(xsens mvn),实际上动作捕捉技术从八九十年代就活跃在电影中了。麻省理工学院开发的基于LED的“木偶图像化(Graphical Marionette)”技术是第一批光学动作跟踪系统。在早期,动作捕捉只是摄影棚的一个步骤,演员穿着紧身衣孤独地在单调的设置场景里通过特殊的相机和灯光进行动作捕捉。而《指环王》这部电影将动作捕捉从摄影棚带到了拍摄片场,让动作捕捉演员的先驱Andy Serkis可以作为咕噜和其他演员进行互动,随着动作捕捉的发展,现在动捕已经被广泛地应用于各种影视拍摄中.在中国市场,诺亦腾(Noitom)作为国产品牌获得了不少国内开发团队的青睐,其产品形成了一系列具有完全自主知识产权的低成本高精度动作捕捉系统,相比其他动辄万元起步每平米的动捕方案,Noitom的设备显得更为实惠。除此之外还有Optitrack和瑞立视的动作捕捉设备和方案,早在2006-2007年左右, OptiTrack就将定价做到了20%左右。随着近年来的虚拟现实技术的兴起与动捕方案成本的降低,大空间定位和多人协同虚拟现实技术的需求也越来越多,更多的交互需求促进了虚拟现实与动捕方案的结合。在这样的环境下,诸多动捕设备品牌都做了针对虚拟现实开发的适配:Optitrack推出了与三星Gear VR以及Occulus CV1和DK2的设备适配方案;Manus VR做了可以绑定在HTC Vive这种VR头显设备中协同使用的蓝牙手套;诺亦腾发布了一套虚拟现实商用解决方案——Project Alice等等

动作捕捉技术之分类与发展史  第4张

                                            manus VR手套

动作捕捉技术之分类与发展史  第5张

                                       manus VR力反馈手套

动捕技术分类比较繁杂,从原理上追溯有机械式、声学式、电磁式、主动光学式和被动光学式。现有的主流动捕技术主要包含两大类,一类是光学捕捉,另一类是惯性捕捉。从成本来进行分析的话,光学捕捉的成本较高。并且从捕捉方式来分析,光学的动捕设备受环境影响,由于需要捕捉场景中的标记点,所以摄像头会被各种反光体干扰。如果场景中有玻璃或者镜面等,会影响捕捉的精度。而惯性捕捉由于是在主要的关节点固定惯性传感器(IMU),通过传感器的运动进行计算关节位置变化,因此惯性捕捉不容易受到外界环境的影响。但是从效果来进行对照的话,惯性捕捉的精度不如光学捕捉的效果。这两类捕捉技术被适配于各种需求不同的场景中,如果是电影中的面部表情等的拍摄,通常使用光学捕捉来完成,如果是简单的关节或者动作捕捉,则通常采用惯性捕捉方案。

动作捕捉技术之分类与发展史  第6张

再来讲动作捕捉的原理,实际上动作捕捉的实质就是要测量、跟踪并且记录物体在空间中的运动轨迹。大多数运动捕捉设备一般由传感器(固定在物体上的追踪装置)向信号捕捉设备(例如高分辨率的红外相机)提供位置信息,信号捕捉设备再将捕获的位移等信息通过数据传输设备传输到计算机,然后通过对应的数据处理软件进行计算和处理,最后才能在系统中做可视化的回放或者记录。这个过程的核心在于信号捕捉与最后的数据计算处理,以人的动作为例,当前的主流算法都是通过IK(逆向运动学, Inverse Kinematics)和FK(正向运动学,Forward Kinematics)进行计算, FK可以比较自然地实现运动状态,IK可以用在程序中实时生成骨骼模型的关键帧,这样就可以使角色根据外界环境实时的作出动作的反应看起来更加真实。因为二者互补,所以常常对FK和IK混用(FK/IK blend),关于这两种算法的具体区别,读者可以自行百度或者Google,文章此处不再进行赘述。

最后,动作捕捉从未限定在某个固定的领域,它的未来必定还有更多的可拓展的发展方向。就当前状态而言,动作捕捉虽然应用的领域不算少,但是实际上还是一个比较小众的市场。因为你甚至无法直接把动作捕捉作为一个学科来看待,因为动作捕捉不仅仅是字面上简单可以解释的一个技术。它里面是包含了惯性技术、通信技术、人体运动学和我们计算机软件等多门学科的综合体,国内对动捕进行的学术研究目前还不算特别拔尖。总而言之,目前我们常见的动作捕捉分为两类:惯性动作捕捉与光学动作捕捉,光学动作捕捉又分为红外、激光、可见光与机器视觉等。

动作捕捉技术之分类与发展史  第7张

                                           Xsens + manus vr

动作捕捉技术之分类与发展史  第8张

先来了解一下惯性动捕,在具体提到惯性动作捕捉之前,大家比较熟悉的惯性技术应该更多在于我们的智能手机上。在惯性技术刚开始运用的时候,其实更多是在武器上,后来随着这一技术的发展与普及,我们将其集成到了智能手机,与陀螺仪、加速度计等芯片共同提供各种各样的自然交互。而我们的惯性动作捕捉,实际上就是通过类似功能的集成芯片封装后绑定在身体重要的关节点,通过芯片捕捉到的关节点变换,进行算法分析从而转化为人体的动作数据。目前动作捕捉做的成熟度较高的应该当属荷兰的一家动作捕捉公司Xsens,他们从2000年就开始涉猎IMU和AHRS(惯性测量装置和自动航向基准系统,前者用于测量直线运动和旋转运动,后者功能类似但基准来源于地球的重力场和磁场),是当前世界上技术沉淀较深的公司,国内由搜维尔科技代理,提供售后和技术支持。而国内市场的话,北京诺亦腾以MENS形式(芯片形式,传感器都以芯片形式存在)开发的低成本高精度动作捕捉产品,获得了国内市场较多的认可。动作捕捉的价钱是跟捕捉精度(resolution)和捕捉速度(FPS)成正比的。由于大部分动捕设备的客户是研发部门或者学校,价格自然也抬得比较高。而诺亦腾相对改变了这个环境,将惯性动捕套装的市场价格打到了一个比较合适的价位。

接着说光捕,光学捕捉相比惯性捕捉来说特点还是比较明显的。就是精度,目前主流的技术基本可以做到精度在毫米级别。但是它的设备较为复杂,搭建设备需要一定的场地和人工成本。其次它在身上绑定的MARK点容易被身体遮挡导致定位丢失,目前的解决方式是增加摄像机的数量,这将极大地增大开发或者学习的负担,基本上不适用于个人开发者或者比较小的团队。常见的光捕技术又被分为红外、激光、可见光和机器视觉等,这里将对主流的捕捉系统进行一个对比分析。

红外定位:

顾名思义,红外动捕肯定使用了红外线技术。这种技术的基本原理就是在一定的空间内使用若干红外摄像机,对该空间进行覆盖拍摄,而被定位的物体上则使用红外反光材料标记重要节点。通过摄像机发出红外光线,并且在红外光线在空间中反射后捕捉它们,便能利用算法进行计算这些点在空间中的相对位置变化。虚拟现实头盔Oculus Rift使用的就是红外光学定位技术,只不过稍有区别:它是直接通过头显发射出红外光,由于接收器上布置了滤波片,因此仅能更精确地捕捉到自家设备发出的红外光线。虽然红外技术提供了比较高的定位精度和比较低的延迟率,但是外部设备的布置必然会导致使用学习成本的增加,并且由于摄像头的FOV受限,其无法再太大的活动范围使用(除非增加摄像头的数量)。

动作捕捉技术之分类与发展史  第9张

                                  搜维尔科技ART TRACK5

激光定位:

说到激光定位,大家肯定能想起HTC Vive的Lighthouse,也就是我们俗称为“光塔”的东西。光塔会在空间中不断发射垂直和水平扫射的激光束,而场景中被检测的物体会安装多个激光感应接收器,通过计算激光束投射在物体上的角度差,就能得到物体的三维坐标。而物体在空间中的移动会让坐标数据产生实时变化,从而完成动作捕捉信息的获取。以Vive为例,Lighthouse每秒产生大约六次激光束与设备进行交互并获取位置信息。激光定位相比其他定位技术成本较低,并且精度较高,不容易受到遮挡,也不需要特别复杂的数据运算,因此能做到比较强的实时度。

计算机视觉动捕:

不同于上面其他捕捉的方式,计算机视觉是通过高精度的相机从不同角度对运动的目标进行拍摄。当拍摄的轨迹被相机获取之后,程序会对这些运动帧进行处理和分析,并最终在电脑中还原出追踪目标的轨迹信息。例如Leap Motion和Hololens利用的就是这样的技术,设备包含了多个摄像头,通过摄像头对手部动作进行捕获和模型还原。并且识别出对应的手势轨迹,从而实现我们所看到的体感交互。这种交互方式和上述几种方式最大的区别就是不需要任何的穿戴设备,约束性很小,并且手势动作是自然交互中最接近真实世界的一种。但同时这种方式也是受到环境干扰最厉害的一种,任何来自于光线、背景、遮挡的变量都可能对捕捉效果产生较大的影响,并且由于当前算法还不够精确,在比较细微的交互上还无法实现百分百的识别。

就上述这些技术而言,目前捕捉精度和方式都大致处于一个比较接近的水平,xsens mvn还是有着最大的优势,是目前动捕领域最精准的存在;但是随着技术发展而言,计算机视觉技术将会是未来一个比较有前景的趋势。人类的交互方式终究是以人的本能为主。相对而言,其他的捕捉方式更适合一些工业级的应用。


The End