来自科大的干货：人体姿态检测和手势检测汇总

Xsens动作捕捉 2022-11-19 16520

在AI的路途上跌跌撞撞，是不是渴望遇到组织，一起学习，一起解决学习中的困难。在这里，请大家可以看到文末，小编给大家留下了进入神秘的礼物——进入我们AI学习组织的方式。

最近实验室打算做些人体姿态检测和手势检测的项目，为此小编特地整理了一些相关的干货，不只有论文，而且还有着源码。希望大家可以用到。

人体姿态检测

人体动作一般包括了走路、跑步、挥臂、下蹲、坐立、跳跃等等，这些动作是人的最外在的表现。如何让机器理解人的行为，有着重要的作用。假如在游泳馆利用上人体姿态检测的技术，就可以第一时间发现溺水的小朋友。下面让我们一起检索人体姿态检测的技术吧。

（1）

论文题目：Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

论文地址：https://arxiv.org/pdf/1611.08050.pdf

会议/期刊：CVPR2017

代码地址：https://github.com/PoseAIChallenger/mxnet_pose_for_AI_challenger

方法特点：

应对问题	多人的实时性的人体姿态检测；图像中不知道有多少人，在什么位置，什么尺度；人与人之间因接触、遮挡而变得复杂；
方法	提出一种基于部分亲和字段PAF（Part Affinity Field）的2D图像姿态检测方法。本文承接CMP论文的框架结构，最大的创新点在于提出PAF，能够有效的针对多人进行姿态估计，同时在保证精度的情况下，可以做到实时的效果。传统的方法采用top-down的方法，即先检测人，然后对每一个人进行姿态估计，但是当人离得比较近的时候，检测人体的方法无效；并且人数越多，检测所花的时间约多，不能做到实时效果。因此本文采用bottom-up的方式，但是也利用了全局上下文信息。 PAF：文章提出的Part Affinity Fields（PAFs）是一个2D向量集合，每一个2D向量集合都会编码一个limb的位置和方向。这些fields和关节的置信图一起经过CNN进行联合学习和预测。
	PII和COCO数据集
	动态图展示： https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation 视频展示： http://posefs1.perception.cs.cmu.edu/Users/ZheCao/humanpose.mp4 https://www.youtube.com/watch?v=pW6nZXeWlGM&t=77s

（2）

论文题目：Mask R-CNN

论文地址：https://arxiv.org/pdf/1703.06870.pdf

会议/期刊：ICCV2017 best paper

代码地址：

https://github.com/facebookresearch/Detectron
https://github.com/matterport/Mask_RCNN

方法特点：

应对问题	Mask R-CNN是一个实例分割（Instance segmentation）算法，可以用来做“目标检测”、“目标实例分割”、“目标关键点检测”。（包含人体姿态检测）
方法	提出了一个概念上简单、灵活以及通用的目标实例分割框架。该方法可以有效地检测图像中的目标，同时为每一个实例生成高质量的分割掩模。这种称为Mask R-CNN的方法通过添加一个与现有边框识别分支并行的、用于预测目标掩模的分支来扩展Faster R-CNN。Mask R-CNN训练简单，相对于Faster R-CNN只增加了很小的开销，运行速度在5fps。此外，Mask R-CNN很容易推广到其他任务，例如，允许我们在同一个框架中估计人的姿势。
	COCO数据集
	见代码地址

（3）

论文题目：RMPE: Regional Multi-Person Pose Estimation

论文地址：http://openaccess.thecvf.com/content_ICCV_2017/papers/Fang_RMPE_Regional_Multi-Person_ICCV_2017_paper.pdf

会议/期刊：ICCV2017

代码地址：https://github.com/MVIG-SJTU/AlphaPose

方法特点：

应对问题	上海交大和腾讯优图的论文，论文分析了当前姿态估计的两种方法存在的问题--对于自顶向下的方法，检测的误差是很大的一个影响，即使在检测任务下是正确的，提取的proposal也不适用于单人的姿态估计方法；同时，冗余的检测框也使得单人的姿态被重复估计；对于自底向上的方法，当两个人比较靠近时，人体关键点分配到每个人身上会出错，这也是该方法的challenge。作者采用自顶向上方法，致力于解决对于imperfect proposal，通过调整，使得crop的person能够被单人姿态估计方法很好的识别，从而克服检测带来的定位误差。
方法	对于多人姿态估计的方法采用传统的自顶向下的方法，即先检测人，再识别人体姿态。检测使用的是SSD-512，识别人体姿态使用的是state-of-the-art的Stacked Hourglass方法。
	MPII和COCO数据集
	见代码地址

（4）

论文题目：Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources

论文地址：https://arxiv.org/pdf/1703.00862.pdf

会议/期刊：ICCV2017

代码地址：https://github.com/1adrianb/binary-human-pose-estimation

方法特点：

应对问题	为了应对有限的计算资源，设计一个轻量级的，紧凑的网络；
方法	设计了一个二值化网络；设计了层级的平行的多尺度的残差网络；提出的网络结构不仅对二值有效，对real-value同样有效；
	MPII和AFLW数据集
	https://www.adrianbulat.com/binary-cnn-landmarks

（5）

论文题目：Stacked Hourglass Networks for Human Pose Estimation

论文地址：https://arxiv.org/pdf/1603.06937.pdf

会议/期刊：ECCV2016

代码地址：https://github.com/umich-vl/pose-hg-train

方法特点：

应对问题	为了应对有限的计算资源，设计一个轻量级的，紧凑的网络；
方法	这篇文章提出了一个新颖的ConvNet架构，应用于人体姿态估计。作者认为重复使用 bottom-up、top-down能够提升网络性能。作者将这个网络命名为“stacked hourglass”（栈式沙漏网络）。
	FLIC和MPII数据集
	http://www-personal.umich.edu/~alnewell/pose/

（6）

论文题目：A simple yet effective baseline for 3d human pose estimation

论文地址：https://arxiv.org/pdf/1705.03098.pdf

会议/期刊：ICCV2017

代码地址：https://github.com/una-dinosauria/3d-pose-baseline

方法特点：

应对问题	给定2d joint locations 来预测3d position；证明现今方法的误差大部分来源于有限的2d pose(visual)，还是来源于2d到3d的变换过程。
方法	这篇文章提出了一个简单的但是有效的深度前馈网络将2d joint locations“lifting”到3d 空间。证明了现今方法的误差大部分来源于有限的2d pose(visual)。
	Human3.6M
	见代码地址

（7）

论文题目：Fine-Grained Head Pose Estimation Without Keypoints

论文地址：https://arxiv.org/pdf/1710.00925.pdf

会议/期刊：CVPRW

代码地址：https://github.com/natanielruiz/deep-head-pose

方法特点：

应对问题	作者认为通过关键点来将2D变为3D，这种传统的方式是不稳固的。
方法	这篇文章提出了一个multi-loss的卷积神经网络来进行姿态的检测
	300W-LP
	https://youtu.be/OZdOrSLBQmI https://youtu.be/Bz6eF4Nl1O8

（8）

论文题目：Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach

论文地址：https://arxiv.org/pdf/1704.02447.pdf

会议/期刊：ICCV 2017

代码地址：https://github.com/xingyizhou/pytorch-pose-hg-3d

方法特点：

应对问题	应对人体姿态检测中有标记的训练集数据较少的问题。
方法	这篇文章提出了一个弱监督的迁移学习方法，设计一个两阶段的级联网络，可以综合利用在野外的2d的有标记的样本以及室内的有标记的3d的样本；可以充分挖掘2d样本与3d样本（深度）之间的关系。
	MPII、Human3.6M和MPI-INF-3DHP
	见代码地址

（9）

论文题目：Multi-Context Attention for Human Pose Estimation

论文地址：https://arxiv.org/pdf/1702.07432.pdf

会议/期刊：CVPR 2017

代码地址：https://github.com/bearpaw/pose-attention

方法特点：

应对问题	人体姿态估计面临的问题：肢体关联性、自遮挡、服装影响、透视(foreshortening)因素、复杂物体背景(尤其与肢体比较相似)及人体的严重遮挡。
方法	整合多内容信息注意力机制(multi-context attention mechanism)到CNN网络，得到人体姿态估计 end-to-end 框架。采用堆积沙漏网络(stacked hourglass networks) 生成不同分辨率特征的注意力图(attention maps)，不同分辨率特征对应着不同的语义。利用CRF(Conditional Random Field)对注意力图中相邻区域的关联性进行建模。与此同时结合了整体注意力模型和肢体部分注意力模型，整体注意力模型针对的是整体人体的全局一致性，部分注意力模型针对不同身体部分的详细描述。因此，能够处理从局部显著区域到全局语义空间的不同粒度内容。另外，设计了新颖的沙漏残差单元(Hourglass Residual Units, HRUs)，增加网络的接受野。 HRUs 扩展了带分支的残差单元，分支的 filters 具有较大接受野；利用 HRUs 可以学习得到不同尺度的特征。
	MPII和LSP数据集
	见代码地址

（10）

论文题目：A Dual-Source Approach for 3D Pose Estimation from a Single Image

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Yasin_A_Dual-Source_Approach_CVPR_2016_paper.pdf

会议/期刊：CVPR 2016

代码地址：https://github.com/iqbalu/3D_Pose_Estimation_CVPR2016

方法特点：

应对问题	3d pose 数据集标注费时费力且不够精确
方法	一个dual-stream的三维姿态估计方法，训练数据分别是带标记点的二维图像和三维动作捕捉数据。结合2d和3d的图像的信息，最终进行3d pose的重建。
	HumanEva-I 和Human3.6M
	http://pages.iai.uni-bonn.de/iqbal_umar/ds3dpose/

（11）

论文题目：Cascaded Pyramid Network for Multi-Person Pose Estimation

论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Cascaded_Pyramid_Network_CVPR_2018_paper.pdf

会议/期刊：CVPR 2018

代码地址：https://github.com/chenyilun95/tf-cpn

方法特点：

应对问题	Face++旷世科技2017年取得COCO Keypoints Challenge冠军的文章，主要目的是解决 in the wild 场景下多人的姿态估计，即关键点回归。
方法	提出了一种金字塔型的串接模型，即CPN（cascaded pyramid network），这个模型能够同时兼顾人体关节点的局部信息以及全局信息，结果取得了不错的效果。使用了online hard keypoints mining的技术，这对于人体姿态估计任务中一些存在遮挡的“hard”的关键点的预测有所帮助；测试阶段考量了soft-NMS和传统的hard-NMS（非极大值抑制）在human detection阶段产生的影响，结论是soft-NMS对于最后的结果是有所帮助的。
	COCO
	见代码地址

（12）

论文题目：Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image

论文地址：http://openaccess.thecvf.com/content_cvpr_2017/papers/Tome_Lifting_From_the_CVPR_2017_paper.pdf

会议/期刊：CVPR 2017

代码地址：https://github.com/DenisTome/Lifting-from-the-Deep-release

方法特点：

应对问题	从一张单一的RGB图像来判断一个人的3d的pose是比较困难的
方法	提出了一个统一的公式来从一张RGB图像进行3d的人的动作检测；结合2d的joint估计以及3d的动作重建来同时提高两者的性能；采取一种综合方法，融合三维人体姿势的概率知识与多级CNN架构，并使用弱标记的3d 坐标蕴含的知识来协助检索更好的2d位置。整个网络是端到端的。
	Human3.6M
	见代码地址

（13）

论文题目：VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

论文地址：https://arxiv.org/pdf/1705.01583.pdf

会议/期刊：ACM Transactions on Graphics（TOG）

代码地址：https://github.com/latte0/3d-pose-estimation

方法特点：

应对问题	实时的人体动作捕捉对于VR/AR交互或游戏都很有意义，但目前的动作捕捉方法往往很难兼顾性能和实时。
方法	本文试图发明一种用常见网络摄像头就可以在室内外使用的动捕方案，其关键思想是借助于骨骼节点的热点图和深度图估计，以及实时的骨骼长度和时序变化校正。
	MPI-INF-3DHP和Human3.6M
	见代码地址

（14）

论文题目：Knowledge-Guided Deep Fractal Neural Networks for Human Pose Estimation

论文地址：https://arxiv.org/pdf/1705.02407.pdf

会议/期刊：IEEE Transactions on Multimedia

代码地址：https://github.com/Guanghan/GNet-pose

方法特点：

应对问题	使用深度神经网络的人体姿态估计旨在将具有大变化的输入图像映射成多体关键点，该多个关键点必须满足人体模型施加的一组几何约束和相互依赖性。这在非常高维的特征空间中是一个非常具有挑战性的非线性流形学习过程。
方法	我们认为，深度神经网络，它本身是一个代数计算系统，不是来捕捉高度复杂的人类知识的最高效的方法，例如那些高度耦合的几何特征和相互依存的关键点之间的人类姿势。作者提出如何将外部的先验知识注入到深度神经网络，以指导其训练过程。具体地，使用堆叠沙漏网络和resnet模块构造一个分形网络来将人体姿势图像回归到HEATMAPS中，而没有显式的图形建模。用视觉特征编码先验知识，这些特征能够表征人体模型的约束，并评估中间网络输出的准确性。然后，我们使用辅助损失函数学习的投影矩阵将这些外部特征注入神经网络。
	MPII和Leeds Sports Pose Dataset
	http://github.com/Guanghan/GNet-pose

手势检测

手势检测与人体姿态检测异曲同工，但检测的动作上就更加细致了。幻想一下我们可以在空中利用手势控制我们的电脑进行各种各样的游戏，是不是非常酷炫？大家有想法的可以利用下面的代码做些酷酷的小应用呢。

（1）

论文题目：Depth-Based Hand Pose Estimation: Data, Methods, and Challenges

论文地址：https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Supancic_Depth-Based_Hand_Pose_ICCV_2015_paper.pdf

会议/期刊：ICCV2015

代码地址：https://github.com/jsupancic/deep_hand_pose

方法特点：

应对问题	近年来，人体姿态估计得到了迅速的发展。商品深度传感器的引入和大量的实际应用推动了新的进展。
方法	本文专注于单一深度帧的手势检测。已经做了很多应用，软件。总结了以下结论：（1）对于孤立手的场景，粗略地解决了姿态估计问题。然而，方法仍然难以分析混乱的场面，手可能与附近的物体混杂。为了进一步的研究，我们引入了一个挑战性的新数据集，具有多样、杂乱的场景；（2）许多方法用不同的标准来进行评价，进行比较。我们制定了一个一致的评价标准；（3）我们引入了一个简单的最近邻baseline，它优于大多数现有系统。这意味着大多数系统泛化能力存在问题。证明了训练数据与模型本身一样重要。
	UCI-EGO、ICL、NYU
	见代码地址

（2）

论文题目：Model-based Deep Hand Pose Estimation

论文地址：http://xingyizhou.xyz/zhou2016model.pdf

会议/期刊：IJCAI2016

代码地址：https://github.com/xingyizhou/DeepModel

方法特点：

应对问题	先前的手姿态估计方法没有充分利用手模型几何中存在的先验信息。相反，他们通常依靠一个单独的步骤来检测有效的手势。这样是次优的。
方法	本文提出了一种基于模型的深度学习方法，采用基于forward kinematics based layer，以确保估计姿势的几何有效性。表明了在深度学习中嵌入这样的非线性生成过程对于手姿态估计是可行的。
	NYU 和 ICVL
	见代码地址

（3）

论文题目：Dense 3D Regression for Hand Pose Estimation

论文地址：https://arxiv.org/pdf/1711.08996.pdf

会议/期刊：CVPR2017

代码地址：https://github.com/melonwan/denseReg

方法特点：

应对问题	更好的手势检测性能
方法	提出了一种简单有效的三维手姿态估计方法，利用了2d和3d共同蕴含的信息。具体而言，将姿态参数分解成一组像素估计，即2D热图、3D热图和单元三维方向矢量。通过多任务的级联网络，对2D/3D joint图和3D joint偏移进行估计。
	ICVL、 NYU和MSRA15.
	见代码地址

（4）

论文题目：Robust 3D Hand Pose Estimation in Single Depth Images: from Single-View CNN to Multi-View CNNs

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ge_Robust_3D_Hand_CVPR_2016_paper.pdf

会议/期刊：CVPR2016

代码地址：https://github.com/geliuhao/CVPR2016_HandPoseEstimation

方法特点：

应对问题	关节手姿态估计在人机交互中起着重要的作用。尽管最近的研究进展，但现有方法的精度仍然不尽如人意，部分原因在于嵌入的高维非线性回归问题。
方法	不同于现有的具有单一深度图像的手姿态的判别方法，我们将检索的深度图像投影到三个正交平面上，并利用这些多视图投影来进行二维热图的回归，以估计关节位置。然后将这些多视点热图融合以产生具有学习到的先验的三维手姿态估计。
	http://research.microsoft.com/en-us/people/yichenw
	见代码地址

（5）

论文题目：DeepPrior++: Improving Fast and Accurate 3D Hand Pose Estimation

论文地址：http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w11/Oberweger_DeepPrior_Improving_Fast_ICCV_2017_paper.pdf

会议/期刊：ICCV2017

代码地址：https://github.com/moberweger/deep-prior-pp

方法特点：

应对问题	手势关键点检测
方法	DeavePrime是一种基于深度学习的简单方法，它预测给定深度图的手的关节三维位置。本文基于DeavePrime进行了改进，引入resnet层，进行数据增强，进行了好的手的位置初始化，得到了更好的结果。
	NYU、 ICVL、 MSRA
	见代码地址

（6）

论文题目：Region Ensemble Network: Improving Convolutional Network for Hand Pose Estimation; Towards Good Practices for Deep 3D Hand Pose Estimation

论文地址：https://arxiv.org/pdf/1702.02447.pdf

https://arxiv.org/pdf/1707.07248.pdf

会议/期刊：ICIP2017; CVPR2017

代码地址：https://github.com/guohengkai/region-ensemble-network

方法特点：

应对问题	单深度的手势姿态检测是一个挑战
方法	近年来，采用复杂设计的深度卷积网络已被用于解决这一问题，但对传统方法的改进并不十分明显。为了促进直接三维坐标回归的性能，我们提出了一种树形结构区域集成网络（REN），它将卷积输出分割成区域，并在每个区域上集成来自多个回归器的结果。与多模型集成相比，我们的模型完全是端到端的训练。
	NYU和ICVL
	见代码地址

（7）

论文题目：Estimate Hand Poses Efficiently from Single Depth Images.

论文地址：https://link.springer.com/content/pdf/10.1007%2Fs11263-015-0826-9.pdf

会议/期刊：IJCV2015

代码地址：https://github.com/lzddzh/HandPoseEstimation

方法特点：

应对问题	从单一深度的有噪声的图像中进行手势检测
方法	方法分为三步：估计手的方向和3d坐标；借助于旋转深度不变性特征产生一组3d姿势候选；将3d手势姿态检测构成一个求最优化的问题求解。且分析了如何减少噪声对性能的影响。
	基于开源的Libhand SDK，生成数据
	https://web.bii.a-star.edu.sg/archive/machine_learning/Projects/behaviorAnalysis/handPoseEst/dhand.html

小编建立了一个AI学习的微信群，想和大家一起努力学习。可以添加小编的微信cassiePython备注“AI学习”加入哦。最后请为辛苦整理的小编点个赞吧~

编辑：蜗壳小肥、马宁馨

来自科大的干货：人体姿态检测和手势检测汇总第44张

The End

标签：博主很懒，并没有设置标签

« 2024年1月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

行业新闻

相关文章