谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你

Xsens动作捕捉 2023-05-11 2561

【新智元导读】近日,Google引入了将二维人体姿态映射到视图不变概率嵌入空间的Pr-VIPE模型,使用15块CPU在一天时间内即可完成训练。该模型中学习到的嵌入,可以直接用于姿态检索、动作识别和视频对齐等应用。此外,研究人员还提出了一个交叉视图检索基准,可以用来测试其他嵌入的视图不变属性。


我们知道,日常活动,如慢跑,读书,倒水,或运动,都可以被视为一系列的姿势。


而理解图像和视频中的姿势,是实现一系列应用的关键步骤,包括增强现实显示、全身姿势控制和体育锻炼量化等等。


然而,在二维图像和视频中捕捉到的三维姿态,会随着相机的视角的变化而有不同的呈现。


如果仅使用2D信息,就能识别3D姿势的相似性,那么这将有助于视觉系统更好地理解世界。


针对此问题,近日,Google更新了一项研究“人体姿态的视图不变概率嵌入”(View-Invariant Probabilistic Embedding for Human Pose)(Pr-VIPE)。


在该研究中,研究人员提出了一种新的人体姿态感知算法,可以通过将二维人体姿态关键点映射到视图不变嵌入空间,来识别不同相机视图下人体姿态的相似性。该论文现已作为“spotlight paper”,发表在ECCV2020中。


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第1张


在这种能力的加持下,计算机可以实现如姿态检索,动作识别,动作视频同步等等任务。


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第2张

图:Pr-VIPE可以直接应用于从不同的视图实现视频的对齐


“两个观察”成为Pr-VIPE建立基石,概率映射教会机器匹配情况


Pr-VIPE的输入是一组2D关键点,这些关键点来源于至少产生13个身体关键点的2D位姿估计器,而Pr-VIPE输出则是位姿嵌入的均值和方差。
其中,二维位姿嵌入之间的距离与它们在绝对三维位姿空间中的相似性相关。


研究人员的方法主要是基于两个观察结果而提出的:

1、同样的3D姿势在2D中可能会随着视点的变化而出现非常不同的效果。

2、同样的2D姿势可以从不同的3D姿势投射出来。
第一个观察结果激发了视图不变性的需要。


为了满足这一需要,研究人员定义了匹配概率,即不同的2D姿态从相同或相似的3D姿态投射出来的可能性。


同时,Pr-VIPE预测的姿态对匹配的匹配概率,应该高于非匹配的姿态对匹配概率。
为了解决第二个观察结果,Pr-VIPE利用了一个概率嵌入公式。


由于许多3D位姿可以投影到相同或类似的2D位姿,模型输入显示出一种固有的模糊性,很难通过嵌入空间中的确定性点对点映射来捕捉。


因此,研究人员采用了通过概率映射进而映射到嵌入分布的方法,并使用方差来表示输入2D位姿的不确定性。


例如,在下图中,左侧3D姿势的第三个2D视图与右侧不同3D姿势的第一个2D视图相似,所以研究人员将它们映射到嵌入空间的一个相似的位置上,并将方差设置为一个很大的值。

谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第3张

图:Pr-VIPE使视觉系统能够跨视图识别2D姿态


视图不变性(View-Invariance)


在训练过程中,研究人员使用了两个来源的2D姿态:多视图图像和groundtruth3D姿态的投影。


他们从batch中选取二维位姿的“三胞胎”(anchor、positive和negative),其中anchor和positive是同一三维位姿的两个不同投影,negative是一个不匹配的三维位姿的投影。


然后,Pr-VIPE根据二维姿态对的嵌入情况估计其匹配概率。


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第4张

图:Pr-VIPE模型概述


在训练期间,研究人员应用了三种损失(三重比损失,正成对损失,以及在嵌入之前应用的单位高斯的先验损失)。在推理过程中,模型将输入的2D姿态映射到概率的视图不变嵌入。


概率嵌入(Probabilistic Embedding)


Pr-VIPE将二维姿态映射为多元高斯分布,并使用基于抽样的方法,计算两个分布之间的相似度评分。


在训练过程中,研究人员使用了高斯先验损失,对预测分布进行正则化。


提出新姿态检索基准, Pr-VIPE在多个数据集上效果突出


在实验部分,研究人员提出了一个新的交叉视图姿态检索基准,来评估嵌入的视图不变性。


给定单目姿态图像,交叉视图检索的目的是在不使用相机参数的情况下,从不同的视角检索相同的姿态。


结果表明,在两个评估的数据集(Human3.6M, MPI-INF-3DHP)中,与baseline方法相比,Pr-VIPE在各个视图之间可以检索出更准确的姿态:

谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第5张

图:相对于基线方法(3D姿态估计),Pr-VIPE更准确地检索跨不同视图的姿态


常见的3D姿态估计方法(如SemGCN和EpipolarPose等)在相机坐标中预测3D姿态,而这些并不具有视图不变性。


因此,使用估计的三维姿态检索时,每个查询-索引对之间的刚性对齐是必需的,由于需要奇异值分解(SVD),因此在计算上非常昂贵。


相比而言,Pr-VIPE嵌入可以直接用于欧氏空间的距离计算,不需要任何后处理。


提升交叉视图检索和视频对齐表现,Pr-VIPE 应用广泛


视图不变姿态嵌入可以应用于许多图像和视频相关的任务。


下面,研究人员展示了Pr-VIPE在不使用相机参数的情况下,应用于实际情况下的交叉视图检索:


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第6张

图:通过使用Pr-VIPE嵌入检测到的二维姿态


同样的Pr-VIPE模型也可以用于视频对齐。


为此,研究人员在一个小的时间窗口内堆栈Pr-VIPE嵌入,并使用动态时间规整(Dynamic Time Warping,DTW)算法来对齐视频对。


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第7张

图:手动视频对齐既困难又耗时。这里,Pr-VIPE被用于自动对齐不同视图中重复相同动作的视频。


通过DTW计算出的视频对齐距离,可以使用最近邻搜索对视频进行分类,并用于动作识别。


研究人员使用Penn动作数据集评估了Pr-VIPE嵌入,并证明了使用Pr-VIPE嵌入,可以在没有对目标数据集进行微调的情况下,获得非常有竞争力的识别精度。


此外,实验结果还表明,在使用Pr-VIPE的情况下,仅使用索引集中单个视图的视频,就可以获得相对准确的结果。


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第8张

图:和其他方法相比,Pr-VIPE的效果明显更好


总体来说,与现有的将2D姿态关键点直接映射到3D姿态关键点的模型相比,Pr-VIPE嵌入空间具有以下特点:

(1)视图不变

(2)使用了捕捉2D输入模糊度的概率

(3)在训练或推理时不需要相机参数


使用实验室内设置数据进行训练后,在2D姿态估计器(如PersonLab、BlazePose等)足够好的情况下,该模型可以在任何其他实际场景中工作。


该模型简单,嵌入紧凑,使用15个cpu可以在1天的时间内完成训练。


最后,Google已经在GitHub上发布了代码:


谷歌最新姿势识别模型Pr-VIPE,怎么变都能认得你  第9张

Git地址:
https://github.com/google-research/google-research/tree/master/poem


参考链接:

https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html

The End