基于高分辨率网络和图卷积网络的三维人体重建模型

2023-08-18 12:15:04| 来源：网友投稿

苏亚婷，刘翠响

（河北工业大学电子信息工程学院，天津 300401）

三维人体重建是计算机视觉和计算机图形学的研究热点之一，在虚拟试衣、人机交互、沉浸式摄影等诸多领域有着重要的应用前景。它主要利用如摄像机、扫描仪、深度相机等硬件设备采集人体信息，通过相关模型处理后，在三维空间中恢复出人体的姿态和形态。该技术能够将真实世界中存在的人体以数字化的方式在计算机中呈现［1］。

早期的人体重建主要采用扫描仪等大型设备扫描人体来获得相关信息后重建人体，但是由于扫描仪体积较大、结构复杂，并未得到推广。多人线性蒙皮（Skinned Multi-Person Linear model，SMPL）模型［2］的出现有效解决此问题，仅需输入模型参数就可以得到重建结果，受到了研究者们一致好评。但是从二维图像中学习SMPL 参数是高度非线性的，这也就导致无法捕捉到足够的空间线索来拟合SMPL；
而SMPL 并未对头部关节点进行定义，致使重建结果可能出现头部姿态翻转的问题。

针对上述问题，本文提出一种基于高分辨率网络（High-Resolution Net，HRNet）［3］和图卷积网络（Graph Convolutional Network，GCN）的三维人体重建模型，该模型包括特征提取模块和图卷积模块。特征提取模块是由HRNet 和残差块［4］组成，目标是从二维图像中获得语义丰富且空间准确的特征信息；
图卷积模块则利用图卷积算法来捕获特征之间隐式的空间线索，从而获得更加精确的空间信息来拟合SMPL。本文模型还参考了文献［5］对SMPL 关节重新进行定义，增加头部关节点，以解决头部姿态翻转的问题。

本文的主要工作如下：

1）提出一种三维人体重建模型，该模型采用HRNet 和残差块作为特征提取模块，通过其独特的并行多分辨率卷积和重复多尺度融合模型结构，使获取特征的语义信息更加丰富。

2）采用图卷积对特征信息进行显式编码，有效避免了特征之间隐式空间线索丢失的问题，获得空间上更加精确的特征表示。

3）模型重新定义了SMPL 关节，增加了头部关节点，有效解决头部姿态翻转的问题。

虽然三维人体重建在之前得到了很好的探索，但是从单视角图像中估计三维人体的形状依然是一个具有挑战性的问题。

Anguelov 等［6］提出首个参数化人体模型——SCAPE（Shape Completion and Animation of People）。Guan 等［7］和Bălan 等［8］利用SCAPE 实现人体重建，但SCAPE 将姿态和形状变形模型分开进行训练，会导致重建结果肌肉变形异常。而SMPL［2］将姿态和形状变形模型进行联合训练，有效解决了肌肉变形异常的问题，所以SMPL 得到更加广泛的应用。基于SMPL 的三维人体重建主要分为两种：基于优化［9-12］和基于深度学习［5，13-19］的重建模型。

Bobo 等［9］提出SMPLify 模型，该模型利用单目图像作为输入，以优化的方式实现对人体三维骨架和表面的重建；
Huang 等［10］对SMPLify 模型进行扩展，增加轮廓信息作为监督信息，提升准确性；
Lassner 等［11］在人体表面放置91 个姿态估计器对重建的姿态和体形进一步优化，提高重建精度；
Zanfir 等［12］采用前馈初始化和语义反馈以及附加约束对图片中的人体的形状进行推理。这种模型虽然可以得到可靠的结果，但是会受到二维关节检测质量的限制，且高度复杂的优化过程需要良好的初始化来达到最优解。

Dibra 等［13］利用卷积神经网络（Convolutional Neural Network，CNN）从轮廓图片中估计SMPL 参数，实现骨架和体型的重建；
Tan 等［14］设计了一种编码-解码的模型架构，采用轮廓信息作为监督信息间接地预测瓶颈层的模型参数；
Tung等［15］在两个连续的视频帧上进行操作，并通过整合光流、轮廓和二维关节损失来预测参数；
Kanazawa 等［16］提出一种端到端的人体网格恢复（Human Mesh Recovery，HMR）模型，通过最小化关节的重投影损失来直接从图像像素中预测姿态和形状的参数；
Kolotouros 等［17］采用神经网络预测SMPL 参数，使用迭代优化的方式使回归得到人体模型更加匹配真实的人体；
Zhang 等［18］提出一种双分支结构，通过潜在特征监督来训练端到端的回归变量；
Li 等［19］提出一种基于SMPLify的改进的多视图优化模型，将SMPL 同时拟合到多视图图像；
张亚凤等［5］采用多特征点模式来实现参数的预测，通过优化能量函数的方式来提升重建精度。但是这类模型只是利用CNN 从图像特征中学习SMPL 参数，缺乏了在拟合模型时所需的空间线索。

图是一种非欧氏数据，传统的CNN 并不能很好地处理此类数据，而GCN 可以学习这类数据之间的空间关系。人体关节和顶点坐标可以看作是一种图结构数据。Kolotouros等［20］首次将GCN 应用在人体重建领域，提出卷积网格回归（Convolutional Mesh Regression，CMR）模型，该模型使用GCN回归得到人体模型坐标。Xie 等［21］则是采用掩膜图像和5 个测量值作为输入，同样采用GCN 来回归人体网格顶点。Zhang 等［22］在文献［21］基础上设计一种由粗到精的图卷积网络，以此获得更为详细的人体模型；
但是该类模型并未对头部关节进行定义。

模型整体结构如图1 所示，主要由特征提取模块和图卷积模块两部分组成。重建过程如下：

图1 三维人体重建模型结构Fig.1 Structure of three-dimensional human reconstruction

1）采用单目图像作为输入，使用特征提取模型即HRNet和残差块提取特征信息。

2）将SMPL 顶点与得到的特征进行融合得到节点特征向量。

3）通过图卷积模块对得到的节点特征向量进行更新得到具有丰富空间信息的姿态和形状参数。

2.1 特征提取模块

特征提取模块由HRNet 和残差块两部分组成，功能是从二维单目图像中提取特征图。不同于大多数现有的提取特征方法，HRNet 采用并行多分辨率卷积和重复多分辨率融合使特征信息在整个提取过程中保持高分辨率表示，所以通过HRNet 得到的特征不仅含有丰富的语义信息而且在空间表示上也更加精确。而残差块的结构被证明是一种建立深层网络的模型，可以有效避免梯度消失现象的发生，能够更好地优化训练结构。

特征提取模块的流程如图2 所示，具体流程如下：首先将224×224×3 的特征图输入HRNet，输出其中具有最高分辨率的特征图，维度是56×56×32；
然后经过卷积核为1 ×1 的卷积层，将通道数变为64；
最后将其输入4 个残差块中，其中残差块结构与ResNet50 的Bottleneck 模块结构一致，包含3 个卷积层，卷积核分别是1×1、3×3、1×1，最终得到所需特征图F。

图2 特征提取模块流程Fig.2 Flowchart of feature extraction module

2.2 图卷积模块

图卷积的出现对于处理非欧氏空间的数据可以提供一种新的思路，与传统CNN 作用类似，都用于特征的提取。不同的是，GCN 精妙地设计了一种从图结构中提取特征的方法。本文利用图卷积网络捕获特征图内在的空间线索来学习SMPL 参数。

图卷积网络的核心是利用其他节点的信息来推导该节点的信息。其运算流程如下：假设输入节点个数为N，其中每个节点特征维度为Q，将这些节点特征拼接起来构成一组维度为N×Q的矩阵X，节点与节点之间的邻接关系构成一组N×N的矩阵A，将矩阵A和X作为输入，就得到了层与层之间的传播方式如式（1）所示：

本文的图卷积模块由5 个图卷积块组成，具体结构如图3 所示，其中GroupNorm 是群归一化，它可以有效防止模型在训练时陷入极小值，无法收敛的问题。GrouphLinear 即CNN中的全连接层，而GroupConvolution 采用的是单层特征传播模式，即式（1）中l=0。

图3 图卷积模块结构Fig.3 Structure of graph convolution module

2.3 SMPL

SMPL 是在三维人体扫描库CAESAR［23］和FAUST［24］数据集上训练所得的，通过形状参数β和姿态参数θ驱动的一种参数化人体模型。该模型具有6 890 个顶点和24 个关节点，但是这24 个关节点并未包含头部关节点，故重建结果极有可能出现头部姿态翻转的问题。所以本文对SMPL 关节重新进行定义，增加了眼睛、耳朵和鼻子等关节点对头部姿态进行控制。SMPL 关节点更新前后对比如图4 所示。

图4 SMPL关节对比Fig.4 Comparison of SMPL joints

3.1 实验数据集、评价指标与损失函数

3.1.1 实验数据集

本文采用两个3D 数据集PW3D［25］和UP3D［11］和三个2D数据集MSCOCO［26］、MPII［27］和LSP［28］作为训练数据集，使用LSP 和MPI-INF-3DHP［29］作为测试数据集。

PW3D 是第一个具有准确3D 姿态的野外数据集，包含60 个具有丰富户外运动的视频序列（其中24 个用于训练、24个用于测试、12 个用于验证）。它提供精准的3D 和2D 姿态注释。

UP3D 是应用SMPLify［9］对收集的图片进行处理从而得到3D 姿态注释的数据集。它包含8 515 张图片，其中7 126张用于训练，1 389 张用于测试。

MSCOCO 是一个大型数据集，包含物体检测、关键点检测、实例分割、全景分割和图片标注等5 种类型的标注。

MPII 是人体姿态估计的基础数据集，其中包含40 000 张图片，有25 000 张图片具有标注信息。

LSP 是一个体育姿势数据集，包含竞技、羽毛球、棒球、体操、跑酷、足球等多种运动模式，其中有2 000 张具有标注信息。

MPI-INF-3DHP 是一种3D 人体姿态数据集，包含多种不同的人体姿态，准确记录了室内室外8 个演员的姿态变化，其测试数据集具有6 个视频帧TS1～TS6。

3.1.2 评价指标

为了评价模型的性能，本文分别采用2D 和3D 数据集对模型进行实验分析。其中2维数据的评价指标采用的是F1分数和准确率（Accuracy），3维数据的评价指标是平均关节位置误差（Mean Per Joint Position Error，MPJPE）以及重建误差。

F1 分数被定义为模型精确率和召回率的调和平均数，其计算公式如式（2）所示：

其中：TP为判断正确的正样本，在本文中为模型重投影图中前景落在数据集标定前景中的像素点个数；
TN为判断正确的负样本，投影图中背景正确落在标记背景中的像素点个数；
FN为判错的正样本，投影图中的前景落在标记背景的像素点个数；
FP为判错的负样本，背景落在标记前景中的像素点个数。

准确率即预测正确的结果占总样本的百分比。计算公式如下：

平均关节位置误差（MPJPE）指的是预测三维关节点与对应的真实关节点的L2距离的平均值。计算公式如下：

重建误差的计算公式如式（5）所示：

其中：是经过相似性变换得到的预测三维关节点坐标。

3.1.3 损失函数

本文的损失函数主要包含预测和真实形状之间对应的每个顶点损失、预测得到的三维坐标和二维坐标损失以及SMPL 形状和姿态参数损失3 部分，整体的损失函数如式（6）所示：

其中：Lshape为人体网格顶点坐标损失，L3D和L2D为关节点损失，三者定义如式（7）～（9）所示：

而Lθ和Lβ的定义如式（10）（11）所示：

其中：θ和β分别表示真实姿态参数和形状参数：和则表示预测得到的姿态参数和形状参数。

3.2 实验结果分析

为了验证本文模型的普适性与准确性以及评估三维姿态与形状，分别在2D 数据集LSP 和3D 数据集MPI-INF-3DHP上进行实验。测试实验在CPU 环境下进行测试，采用VMware15.1 虚拟机搭建的Ubuntu 18.04 操作系统，内存为2.00 GB。测试中必要的依赖包及版本号为：OpenDR 0.78，Chumpy 0.69，opencv-python 3.4.4.19 以及 MeshLab 2021.05。

3.2.1 LSP数据集实验结果分析

本文从LSP 数据集中选取不同的运动姿态图片进行实验，并与其他先进模型如SMPLify［9］、HMR［16］、CMR［20］等模型进行对比，重建结果如图5 所示。

图5 LSP数据集上的重建效果对比Fig.5 Comparison of reconstruction effect on LSP dataset

由图5 可以看出，SMPLify 重建后的人体在不同程度上出现了姿态翻转的问题，甚至出现了人体整个翻转的情况；
HMR 虽然在头部姿态做出了处理，但是对于四肢的重建并未取得很好的效果；
CMR 模型在一定程度上可以改善肢体的重建精度，但是对于头部姿态来说并未得到很好的处理；
而本文模型在人体正对、侧对以及背对镜头时都可以很好地确定关节位置，有效地避免朝向错误，而且该模型还可以精准地捕获头部姿态，使得重建的人体更加贴合真实的人体形态。

为了对本文模型进行更加直观的评价，采用F1 分数和准确率两个评价指标对模型进行隐式的评估，如表1 所示。实验结果表明本文模型在F1 分数和准确率上均优于其他模型，表明本文模型能更加准确地拟合人体体型。

表1 重建性能比较单位：%Tab.1 Reconstruction performance comparison unit：%

3.2.2 MPI-INF-3DH数据集实验结果分析

本文从MPI-INF-3DHP 数据集的TS1 到TS6 视频帧中选取图片进行实验对比。测试结果如图6 所示，可以看出当人体侧向站立时，SMPLify 容易出现姿态翻转的情况；
HMR 和CMR 在头部姿态的处理上不够精确，导致头部朝向出现误差；
本文模型不仅能够保证对关节点的准确定位，而且对于头部姿态的处理也更加细致，从而使得得到的人体更加贴合真实的人体。

图6 MPI-INF-3DHP数据集上的重建效果对比Fig.6 Comparison of reconstruction effect on MPI-INF-3DHP dataset

为了进一步证明有效性，本文计算了MPJPE 以及重建误差，来验证本文模型的性能。结果如表2 和表3 所示，可以看出本文模型在不同数据集序列上都优于其他模型，误差都明显地降低，其中重建误差在TS1 序列上的值降低至50 mm 以下，实验表明本文模型能够更好地适应不同的姿态变化并且更加准确地重建出人体模型。

表2 MPJPE误差结果单位：mmTab.2 MPJPE error results unit：mm

表3 重建误差结果单位：mmTab.3 Reconstruction error results unit：mm

3.3 消融实验

本文采用MPI-INF-3DHP 数据集进行消融实验，分别从TS1～TS6 选取部分数据集来对模型参数进行分析。首先对图卷积的层数N进行了消融实验，实验结果如表4 所示，当N=0 时，模型等同于一个简单的基线模型，相当于直接采用图片特征来估计三维人体模型，但是并未取得很好的结果。通过引入GCN，观察到所有指标的性能随着GCN 层数的增加有显著的提升，当N=5 时重建误差达到55.61 mm，关节平均误差为88.60 mm，进一步证明该模型的有效性。

表4 MPI-INF-3DPH数据集上的消融实验Tab.4 Ablation experiment on MPI-INF-3DPH dataset

其次，为了验证头部关节对于重建误差的影响，本文采取MPI-INF-3DHP 数据集的3 个视频帧（TS2、TS4 和TS6）的部分图片进行实验，结果如表5 所示，可以看出增加头部姿态约束后重建误差有不同程度的降低，侧面证实头部姿态约束的必要性。

表5 头部关节对重建误差的影响单位：mmTab.5 Influence of head joints on reconstruction error unit：mm

本文以SMPL 为基础，提出了一种基于HRNet 和GCN 的三维人体重建模型。该模型利用HRNet 和残差块来提取语义丰富和空间准确的特征图，并利用GCN 来捕获特征之间隐式的空间信息，以获得更为准确的模型参数。而且模型还对SMPL 的关节重新进行了定义，增强了对头部姿态的控制，有效地避免姿态翻转问题的发生。实验结果表明，该模型相较于SMPLify、HMR 和CMR 模型来说效果更好，能够产生精确的人体模型，获得更好的重建结果。但是本文仅仅对人体进行了重建，并未对脸部和手部的细节姿态进行重建，因此下一步工作将会在该模型的基础上增加对脸部和手部姿态的表达。

猜你喜欢关节点头部姿态头部按摩治疗老伴失忆基层中医药(2021年1期)2021-07-22基于深度学习和视觉检测的地铁违规行为预警系统研究与应用科学技术创新(2021年19期)2021-07-16关节点连接历史图与卷积神经网络结合的双人交互动作识别沈阳航空航天大学学报(2020年6期)2021-01-27火箭的头部为什么是圆钝形?军事文摘(2020年22期)2021-01-04攀爬的姿态学生天地(2020年3期)2020-08-25全新一代宋的新姿态汽车观察(2018年9期)2018-10-23跑与走的姿态中国自行车(2018年8期)2018-09-26搞好新形势下军营美术活动需把握的关节点军营文化天地(2017年6期)2017-06-28RGBD人体行为识别中的自适应特征选择方法智能系统学报(2017年1期)2017-06-01自适应统计迭代重建算法在头部低剂量CT扫描中的应用天津医科大学学报(2015年2期)2015-12-22

推荐访问:卷积网络重建

上一篇：立方混沌非线性哈里斯鹰优化算法在无线传感器节点部署分析研究

下一篇：锣鼓喧天