ICCV2017：第一人称视角手势估计

一、背景介绍

由于手在日常的人类活动中，起着至关重要的作用，估计完整的手的三维姿态越来越重要。在很多场景下，比如运动控制，人机交互，虚拟/增强现实，对手姿态的估计需要在一些混乱、有干扰的环境下进行。由于最近卷积神经网络的发展，目前静态、第三人称视角、在无干扰、无遮挡环境下对手部的追踪和手势估计已经很有效。但很明显，这种场景设定在一些实际场景中并不常见。

在现实世界场景下，经常需要从第一视角来进行手势追踪估计，而且背景往往杂乱无章，手经常在跟物体进行交互时存在遮挡，而需要交互的物体形状不定，这就为手势估计和重建构成了很多具有挑战性的任务。总结而言，第一人称视角下，进行手势跟踪和估计具有如下一些挑战：

存在遮挡
背景杂乱无章(噪声)
第一人称视角带来的视野限制（因为相机往往放置在肩部，如图1）
手和物体的交互
该场景下，标注数据的缺失

图1，第一人称视角的手势跟踪

本文总结了近几年在第一人称手势估计方面的顶级工作。这些方法基本上都是基于卷积神经网络进行，利用已有的，或者自己采集的，真实的或者合成的数据进行训练。一般针对与物体交互的场景进行，需要在有遮挡、杂乱无章的环境下进行。

二、手部姿势估计的一般过程

一般而言，第一人称视角下，手部姿势估计过程可以分成两步，手部定位和姿势估计。近几年，这两者基本上都可以通过卷积神经网络实现。

手部定位：通过训练好的，多层卷积神经网络，我们可以得到一个关于手部中心位置的置信度分布图，从而可以绘制成热力图的形式，如图2。

图2，卷积神经网络输出的热力图

姿势估计：对手部姿势估计，一般都会采用21手关节参数[^1]来估计整个手的姿态。通过手关节的角度，相对位置等信息，可以对整个手姿态进行一个重建，如图2 b。

三、带标注的训练数据的获取

一般而言，根据数据获取方式，可以分成三大类，（i）完全合成的数据，（ii）半合成数据以及（iii）真实数据。这些数据大部分是基于RGB-D相机获取的，也有搭配手部传感器进行采集。

1 完全合成数据

因为手动模拟手-物体的交互是一项耗时的任务，故而采用自动的，完全用计算机进行模拟的方法来合成数据。

Choi等人的工作[^2]中，提出了一种用模型进行拟合的方式，来优化模拟手对于模拟物体的抓握姿势的方法。该工作使用了粒子群优化方法（particle swarm optimization），对虚拟的三维手模型和被该手握住的模型的距离误差进行最小化。之后，作者通过碰撞检测技术来判断这个虚拟手部的抓取是否有效，从而排除无效的抓取。之后作者从模型中导出了相应的手的关节角度参数。最后作者将虚拟手部的深度图插入到杂乱无章的背景中，以模仿现实世界的真是噪音的存在。

2 半合成数据

为了在真实性和数据的多样性、易获取性上做出权衡，Mueller等人的工作[^3]则采用了半合成数据的方法，作者称为混合现实（merged reality）。如图3a所示，作者用一个无标记跟踪摄像头，用以从第三视角，跟踪一个无遮挡的真实手部，产生跟踪数据（这种方法已经很成熟），从而用以操作虚拟3D模型手来抓取虚拟的物体。通过这个方法可以增加数据的真实性。

这种方式的优点在于，既保留了一定的手部运动真实性，又能模拟出大量不同的虚拟手部（比如肤色的不同，手指长短，体毛浓密等等），与各种不同类型物体的交互以及各种不同的场景。

图3，a：混合现实（merged reality）方式获取手部数据，b：使用传感器和RGB-D相机采集第一人称数据

3 真实数据

在Garcia-Hernando[^4]的工作中，采集了超过100,000个有3D手姿势注释的RGB-D帧，使用装在指尖上的六个磁性传感器进行数据采集，如图3b。其中包括45个类别，在3个场景中，与25个不同的物体进行交互。作者静心设计了不同的手部动作，以保证能覆盖较多的姿势，交互时间和运动状态。

四、手部定位方法（Localization）

因为卷积神经网络（CNN）方法的成熟，现如今，手部定位基本上都采用卷积神经网络来进行，Choi等人的工作，也证明了卷积神经网络相对于随机森林方法的优势[^1]。在经过训练好的深度神经网络的估计之后，一般会输出一张关于手部中心位置置信度的热力图。

比如，在Choi等人的工作中[^2]，训练了一个带有六个卷积层，以及一个非线性判定层的卷积神经网络，用以判定输入图中的手心位置以及物体位置，如图4。

图4：由五层卷积层与一层非线性层构成的位置估计卷积网络

Mueller等人的工作[^2]，在深度神经网络训练结果上，加入了后处理（post processing）过程，目的是增加数据的稳定性，因为手部中心位置不会随时间的变化而发生较大的变化）。作者保留了同一组数据，多帧图像的历史定位记录，并对每一帧图像的手部位置的定位结果做一个是否可信的判定。如果帧t的热力图的最大置信度小于0.1，且出现的位置和上一次最大值位置距离大于30，则认为其不可信，然后需要对这个最大值点进行更新：

$$\phi_t=\phi_{t-1}+\delta^k\frac{\phi_{c-1} - \phi_{c-2}}{||\phi_{c-1} - \phi_{c-2}||}$$

其中$\phi_t=\phi(H_R^t)$是帧$t$处的更新之后的最大值位置，是$\phi_{c-1}$上一个可置信（confident）的最大值位置，$k$是自上个可置信的最大值起经过的帧数，$\delta$是逐渐对不可信的最大值进行减权（downweight）的衰减因子。

经过更新，最大值位置不会随着时间变化而发生较剧烈的变化。

五、手势估计方法（Hand Pose Estimation）

目前有的手势估计方法基本上可以分成两类，基于分类的方法和基于回归的方法。

分类方法

Rogez等人在2014年发表的文章[^5]中，使用了分层量化的分类器。首先，需要构建一棵姿态类别树，每个节点都代表了一种姿态，层次越高的姿态，普遍性越高。而越接近叶节点，代表其手势的细节越多，更特殊，如图5所示。接下去，可以使用宽度优先搜索（BFS）来对输入的手势进行评估，对树的每一层，都可以剪掉那些评级为0的节点（也就是没有吻合性的姿态）。

图5，手势层次量化分类器

Choi等人的工作[^2]，用一个卷积神经网络，训练了一个分类器，已分类手部姿态，该工作的场景中，用户会抓取一个未知的物体。在训练分类器之前，作者认为，在追踪用户的手部姿态的时候，会因为传感器噪声等，导致输出的RGB-D图像存在一定缺失。故而在训练该分类器的同时，训练了输入数据再生成网络，通过自动编码器的方法实现输入数据复原。自动编码器由编码器（将高维数据映射到较低的维特征空间来降低输入的维数）和解码器（通过将学到的表示，映射回高维空间来恢复原始输入）构成，两者都是卷积神经网络，作者为两者都加入了四层隐含层，如图6a。之后，作者认为手的姿态和物体形状高度相关，所以在训练手部姿态分类器的同时，也加入了另一个神经网络作为物体形状的分类器，并共享这两者的决策层，来协作学习手和物体的成对的卷积特征，以增加分类准确性，如图6a。

图6，a：RGB-D图数据再生成网络，b：手势分类器神经网络的架构

回归方法

在Mueller[^3]等人的工作中，则是使用了卷积神经网络，对手部姿态向量进行了回归。作者采用了一个26自由度的手骨骼模型，其包括6个用于全局平移和旋转的角度，以及20个关节角度，存储在向量$\Theta$中，然后用一个卷积神经网络对这个向量进行了回归。Mueller等人在这个基础上，还加入了一些约束（比如关节旋转角度的范围，手关节运动速度等），以保证回归结果的有效性。

$$\mathcal{E}(\Theta) = E_{data}(\Theta,p_G,H)+E_{reg}(\Theta)$$

其中，$E_{data}$约束了相对位置，$E_{reg}$约束了关节旋转角度和运动速度。

[^1]: Choi, Chiho, et al. “A collaborative filtering approach to real-time hand pose estimation.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
[^2]: Choi, Chiho, et al. “Robust hand pose estimation during the interaction with an unknown object.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[^3]: Mueller, Franziska, et al. “Real-time hand tracking under occlusion from an egocentric rgb-d sensor.” Proceedings of International Conference on Computer Vision (ICCV). Vol. 10. 2017.
[^4]: Garcia-Hernando, Guillermo, et al. “First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations.” arXiv preprint arXiv:1704.02463(2017).
[^5]: Rogez, Grégory, et al. “3d hand pose detection in egocentric rgb-d images.” Workshop at the European conference on computer vision. Springer, Cham, 2014.