(12)发明专利申请
(10)申请公布号 CN 111914618 A(43)申请公布日 2020.11.10
(21)申请号 202010521352.7(22)申请日 2020.06.10
(71)申请人 华南理工大学
地址 510640 广东省广州市天河区五山路
381号(72)发明人 刘阳温 李桂清 韦国栋 聂勇伟 (74)专利代理机构 广州市华学知识产权代理有
限公司 44245
代理人 冯炳辉(51)Int.Cl.
G06K 9/00(2006.01)G06K 9/46(2006.01)G06N 3/04(2006.01)G06N 3/06(2006.01)G06N 3/08(2006.01)
权利要求书3页 说明书7页 附图2页
(54)发明名称
基于对抗式相对深度约束网络的三维人体姿态估计方法(57)摘要
本发明公开了一种基于对抗式相对深度约束网络的三维人体姿态估计方法,包括步骤:1)输入人体16个关节点的二维像素坐标,并归一化预处理;2)输入二维像素坐标到深度预测网络,输出人体16个关节点的深度值;3)利用深度值与二维像素坐标来重构关节点的三维坐标;4)输入三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,利用三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反CN 111914618 A馈到深度预测网络,得到更加准确的三维人体姿态。本发明解决了室外三维人体姿态数据缺少和生成式对抗网络方法的结果与图片各关节点间的相对深度关系不符合的问题。
CN 111914618 A
权 利 要 求 书
1/3页
1.基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于,包括以下步骤:
1)输入人体16个关节点的二维像素坐标,并进行归一化预处理;
2)输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;
3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,得到重构的三维人体姿态;
4)输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;
5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态。
2.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤1)中,对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化预处理后的二维像素坐标。
3.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤2)中,将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:
2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征,该特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成;
2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习,该残差网络模块由两个残差块组成,每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层;
2.3)将残差网络模块的输出特征输入到深度值回归模块,该深度值回归模块由一层包含16个神经元的全连接层构成,深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。
4.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤3)中,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标;假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为
将每个关节点的三维坐标重构,能够重
构人体16个关节点的三维坐标,人体16个关节点的三维坐标组成人体的三维姿态。
5.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其
2
CN 111914618 A
权 利 要 求 书
2/3页
特征在于:在步骤4)中,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:
4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体姿态数据当作真样本,输入到生成式对抗网络的判别器中,能够使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成;首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取,接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用生成式对抗网络的损失函数来计算三维人体姿态的真实性误差;其中,上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成,全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成;
4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,通过图像的人眼观察,能够获得图像中的人体各关节点间的相对深度信息,采用16行16列的矩阵的形式来存储关节点间相对深度关系信息,具体为:从图像观察中,假设人体的第i个关节点比第j个关节点离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差在设定范围内,则r(i,j)为0;其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系;
利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
式中,Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值;r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0};|r(i,j)|表示r(i,j)的绝对值;Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值;最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点所两两形成的256个点对的相对深度误差总和,具体为:
式中,Lrank表示人体的16个关节点所两两形成的256个点对的相对深度误差总和,(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合;计算得到的人体16个关节点两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差。
3
CN 111914618 A
权 利 要 求 书
3/3页
6.根据权利要求1所述的基于对抗式相对深度约束网络的三维人体姿态估计方法,其特征在于:在步骤5)中,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关节点深度,重构得到更加准确的三维人体姿态。
4
CN 111914618 A
说 明 书
1/7页
基于对抗式相对深度约束网络的三维人体姿态估计方法
技术领域
[0001]本发明涉及三维人体姿态估计的技术领域,尤其是指一种基于对抗式相对深度约束网络的三维人体姿态估计方法。
背景技术
[0002]三维人体姿态估计是指从图像中估计出图像中人体的各个主要关节点的三维坐标,用于表示图像中人体三维姿态的过程。近年来,随着当前技术进步驱动从而不断增加的新应用场景,三维人体姿态估计在人机交互、动作估计、动画和虚拟现实等方面有着广泛的应用价值,成为一个基本而具有挑战性的课题。
[0003]由于深度学习的发展和二维人体姿态数据的易获取,二维人体姿态估计领域得到很大的进展突破。然而,在三维人体姿态估计方面,由于三维人体姿态数据采集工作比较困难且成本较高,可用于网络学习的三维人体姿态数据较少。现有的三维人体姿态数据大多数是在室内通过精密的仪器进行人工采集。因此现有三维人体姿态估计方法,由于缺少大量丰富的室外三维人体姿态数据,在室外图像中表现欠佳。[0004]由于二维姿态估计的成熟发展,以及三维人体姿态数据的难采集。现有的三维人体姿态估计的方法趋向于,从二维人体姿态中,通过弱监督的方法来估计三维人体姿态。弱监督的方式旨在通过约束神经网络学习三维人体姿态的先验属性,例如三维人体姿态骨骼长度、骨骼间夹角等属性,而不需要与图片一一对应的三维人体姿态数据进行全监督,从而缓解缺乏室外三维人体姿态数据的局限。为了能够弱监督神经网络生成更为合理的三维人体姿态,现有方法采用生成式对抗网络进行三维人体姿态的弱监督学习。生成式对抗网络的方法旨在利用现有已经采集好的三维人体姿态数据,弱监督式约束称为生成器的神经网络生成符合现有三维人体姿态数据分布的三维人体姿态。生成式对抗网络的方式可以让生成器学习到比较合理的三维人体姿态,比如人体左右手臂长度对称相等,骨骼间夹角合理,重投影与人体二维姿态重合等。然而,现有的生成式对抗网络方法专注于现有采集好的三维人体姿态数据分布的约束,却忽视了图像所对应的人体各关节点间的相对深度的约束,使得估计出的三维人体姿态虽然符合现有采集好的三维人体姿态数据分布,但却不符合图像中所对应的各关节点间的相对深度关系。相对深度是指图像中人体的各个关节点距离摄像机远近的相对关系。相对深度是可以从图像通过人眼观察获得,对比真实三维坐标捕捉的困难度,相对深度是易获取的。因此相对深度信息可以作为一种弱监督的信息进行使用。发明内容
[0005]本发明的目的在于克服现有技术的缺点,提出了一种基于对抗式相对深度约束网络的三维人体姿态估计方法,通过弱监督的方法来解决三维人体姿态数据采集困难的局限,通过结合生成式对抗网络和相对深度约束,解决现有使用生成式对抗网络方法所估计出的三维人体姿态不符合图像对应的相对深度关系的不足。[0006]为实现上述目的,本发明所提供的技术方案为:基于对抗式相对深度约束网络的
5
CN 111914618 A
说 明 书
2/7页
三维人体姿态估计方法,包括以下步骤:
[0007]1)输入人体16个关节点的二维像素坐标,并进行归一化预处理;
[0008]2)输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;
[0009]3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,得到重构的三维人体姿态;
[0010]4)输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;
[0011]5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态。[0012]在步骤1)中,对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化预处理后的二维像素坐标。[0013]在步骤2)中,将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:[0014]2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征,该特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成;
[0015]2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习,该残差网络模块由两个残差块组成,每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层;
[0016]2.3)将残差网络模块的输出特征输入到深度值回归模块,该深度值回归模块由一层包含16个神经元的全连接层构成,深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。[0017]在步骤3)中,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
[0018]假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标;假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为
将每个关节点的三维坐标重构,能够
重构人体16个关节点的三维坐标,人体16个关节点的三维坐标组成人体的三维姿态。[0019]在步骤4)中,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:
6
CN 111914618 A[0020]
说 明 书
3/7页
4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体
姿态数据当作真样本,输入到生成式对抗网络的判别器中,能够使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成;首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取,接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用生成式对抗网络的损失函数来计算三维人体姿态的真实性误差;其中,上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成,全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成;
[0021]4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,通过图像的人眼观察,能够获得图像中的人体各关节点间的相对深度信息,采用16行16列的矩阵的形式来存储关节点间相对深度关系信息,具体为:从图像观察中,假设人体的第i个关节点比第j个关节点离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差在设定范围内,则r(i,j)为0;其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系;[0022]利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
[0023][0024]
式中,Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值;r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0};|r(i,j)|表示r(i,j)的绝对值;Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值;最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点所两两形成的256个点对的相对深度误差总和,具体为:
[0025]
式中,Lrank表示人体的16个关节点所两两形成的256个点对的相对深度误差总和,(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合;计算得到的人体16个关节点两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差。[0027]在步骤5)中,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经
[0026]
7
CN 111914618 A
说 明 书
4/7页
网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关节点深度,重构得到更加准确的三维人体姿态。[0028]本发明与现有技术相比,具有如下优点与有益效果:[0029]1、本发明采用生成式对抗网络进行弱监督,只需使用现有已经采集好的三维人体姿态数据进行训练,无需采集与图像对应的三维人体姿态数据进行全监督,从而缓解三维人体姿态数据难采集的问题,从而具有应用更广的优点。[0030]2、本发明采用结合生成式对抗网络和相对深度约束方式,在通过生成式对抗网络获得比较合理的三维人体姿态的基础上,充分利用图片中各关节点间的相对深度信息,使得所估计出的三维人体姿态更符合图像中人体对应的三维姿态,从而获得更高的精度。[0031]3、本发明的网络都是采用简单的全连接层,网络结构简单,计算快速高效,从而达到实时性。
附图说明
[0032]图1是本发明方法流程图。[0033]图2是人体16个关节点示意图。[0034]图3是深度预测网络的结构图;图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层,大方框中内容表示残差块的结构,大方框右上角的×2表示有两个残差块。[0035]图4是生成式对抗网络的判别器结构图;图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层,FCnet表示全连接特征提取模块网络,Concat表示将上下两层全连接特征提取模块提取的特征进行拼接。[0036]图5是生成式对抗网络的判别器中的全连接特征提取模块网络结构图。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数,RELU表示线性整流激活函数层。
具体实施方式
[0037]下面结合具体实施例对本发明作进一步说明。
[0038]本实施例所提供的基于对抗式相对深度约束网络的三维人体姿态估计方法,进行三维人体姿态估计的完整流程如图1。首先,输入人体16个关节点的二维像素坐标,并进行归一化预处理;接着,输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值;再接着,利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标;然后,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算;最后,将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出让总误差更小的深度值,从而重构得到更加准确的三维人体姿态。具体情况如下:[0039]1)输入人体关节点的二维像素坐标,然后进行人体关节点二维像素坐标归一化处理,具体为:对于每个人体,每个关节点的二维像素坐标减去该人体的16个关节点的二维像素坐标的均值,然后除以该人体的16个关节点的二维像素坐标的标准差,从而获得归一化
8
CN 111914618 A
说 明 书
5/7页
预处理后的二维像素坐标。人体16个关节点见图2所示。[0040]2)深度预测网络结构见图3所示。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数。RELU表示线性整流激活函数层。大方框中内容表示残差块的结构,大方框右上角的×2表示有两个残差块。输入人体16个关节点归一化预处理后的二维像素坐标到深度预测网络中,输出人体16个关节点的深度值。将上一步得到的各关节点归一化预处理后的二维像素坐标,输入到由三个模块组成的深度预测网络中进行人体16个关节点深度值的预测,包括以下步骤:
[0041]2.1)将各关节点归一化预处理后的二维像素坐标,输入到特征提取模块中提取特征。特征提取模块由一层包含1024个神经元的全连接层和一层线性整流激活函数层组成。[0042]2.2)将特征提取模块提取的特征输入到残差网络模块中进行特征学习。残差网络模块由两个残差块组成。每个残差块是将神经网络上一层的输出值输入到一层包含1024个神经元的全连接层和一层线性整流激活函数层输出初步特征值,接着将初步特征值输入到一层包含1024个神经元的全连接层输出进一步的特征值,然后将进一步的特征值与输入到残差块的输入值相加,最后将相加得到的特征值输入到一层线性整流激活函数层,输出残差块特征值到神经网络的下一层。
[0043]2.3)将残差网络模块的输出特征输入到深度值回归模块。深度值回归模块由一层包含16个神经元的全连接层构成。深度值回归模块输入残差网络模块的输出特征,输出人体16个关节点的深度值。
[0044]3)利用16个关节点的深度值与二维像素坐标来重构关节点的三维坐标,具体如下:
[0045]假设人体某一关节点的二维像素坐标为(u,v),其中u为该关节点在图像的横向坐标,v为该关节点在图像的纵向坐标。假设该关节点在上一步预测得到的深度值为H,图像对应的焦距为f,则该关节点的三维坐标为
将每个关节点的三维坐标重构,可以
重构人体16个关节点的三维坐标。人体16个关节点的三维坐标组成了人体的三维姿态。[0046]4)生成式对抗网络的判别器结构见图4所示。图中,Linear表示全连接层,Linear下方的数字表示该全连接层包含神经元的个数。RELU表示线性整流激活函数层。FCnet表示全连接特征提取模块网络。Concat表示将上下两层全连接特征提取模块提取的特征进行拼接。生成式对抗网络的判别器中的全连接特征提取模块网络结构见图5所示。利用生成式对抗网络的判别器与相对深度信息进行误差计算,输入重构的三维人体姿态到生成式对抗网络的判别器进行真实性误差计算,同时利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算,包括以下步骤:[0047]4.1)将上一步重构得到三维人体姿态当作假样本,将现有已经采集好的三维人体姿态数据当作真样本,输入到生成式对抗网络的判别器中,可以使得重构出的三维人体姿态,符合现有已经采集好的真实三维人体姿态数据分布,从而得到更为合理的三维人体姿态;该生成式对抗网络的判别器由上下两层全连接特征提取模块和一个全连接真假预测模块组成。首先,将三维人体姿态样本输入到上下两层全连接特征提取模块进行特征提取;接着将上下两层全连接特征提取模块提取的特征进行拼接得到合并特征,将合并特征输入到一个全连接真假预测模块中进行样本真假的判定,输出对样本的判定值,通过判定值利用
9
CN 111914618 A
说 明 书
6/7页
生成式对抗网络的损失函数来计算三维人体姿态的真实性误差。上层全连接特征提取模块与下层全连接特征提取模块结构一致,都是由深度预测网络中的特征提取模块和由一个残差块构成的残差网络模块组成。全连接真假预测模块由一层包含1024个神经元的全连接层、一层线性整流激活函数层和一层包含1个神经元的全连接层组成。
[0048]4.2)利用重构的三维人体姿态与图像对应的各关节点间的相对深度信息进行相对深度误差计算。通过图像的人眼观察,可以获得图像中的人体各关节点间的相对深度信息。本发明采用16行16列的矩阵的形式来存储关节点间相对深度信息。具体为:从图像观察中,假设人体的第i个关节点比第j个关节点明显离摄像机近,则矩阵第i行j列的元素值r(i,j)为1;第i个关节点比第j个关节点明显离摄像机远,则r(i,j)为-1;第i个关节点比第j个关节点离摄像机远近相差不大,则r(i,j)为0。其中i和j都是取值在区间[1,16]中的一个整数,r为用于存储关节点间相对深度信息的矩阵,r(i,j)为矩阵中第i行j列的元素值,用于表示第i个关节点与第j个关节点间的相对深度关系。[0049]利用得到的相对深度信息的矩阵,来计算步骤3)中重构得到的三维人体姿态中的每一对关节点间的相对深度误差,具体为:
[0050]
式中,i和j都是取值范围在区间[1,16]中的一个整数。Li,j表示三维人体姿态中第i关节点与第j个关节点形成的点对的相对深度误差值。r(i,j)表示第i个关节点与第j个关节点间的相对深度关系,取值为{1,-1,0}。|r(i,j)|表示r(i,j)的绝对值。Hi和Hj分别表示在深度预测网络得到第i个关节点与第j个关节点的深度值。最终由人体的每一对关节点间的相对深度误差,来计算人体的16个关节点两两形成的256个点对的相对深度误差总和,具体为:
[0052]
[0051]
式中,i和j都是取值范围在区间[1,16]中的一个整数。Li,j表示三维人体姿态中第
i关节点与第j个关节点形成的点对的相对深度误差值。Lrank表示人体的16个关节点两两形成的256个点对的相对深度误差总和。(i,j)表示人体中第i个关节点与第j个关节点组成的点对,B表示人体16个关节点间两两组成的256个点对组成的集合。计算得到的人体16个关节点所两两形成的256个点对的相对深度误差总和,表示为该人体的三维人体姿态的相对深度误差。
[0054]5)将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加得到总误差,并反馈到深度预测网络,约束深度预测网络预测出更准确的深度值,从而重构得到更加准确的三维人体姿态,具体如下:
[0055]将生成式对抗网络的判别器计算的真实性误差与相对深度误差相加,得到所重构的三维人体姿态在真实性与相对深度两方面的总误差,通过神经网络的反向梯度下降传播,将误差反馈给深度预测网络,更新深度预测网络中的参数,从而使得神经网络能够学习到三维人体姿态的真实性以及图片对应的各关节点间的相对深度信息,预测更加准确的关
[0053]
10
CN 111914618 A
说 明 书
7/7页
节点深度,重构得到更加准确的三维人体姿态。[0056]综上所述,在采用以上方案后,本发明为三维人体姿态估计提供了新的弱监督的方法。本发明结合生成式对抗网络和相对深度约束方式,在通过生成式对抗网络获得比较合理的三维人体姿态的基础上,还利用了图片中各关节点间的相对深度关系信息,使得所估计出的三维人体姿态更符合图像中人体对应的三维姿态,从而获得更高的精度,具有实际应用价值,值得推广。
[0057]以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
11
CN 111914618 A
说 明 书 附 图
1/2页
图1
图2
图3
12
CN 111914618 A
说 明 书 附 图
2/2页
图4
图5
13
因篇幅问题不能全部显示,请点此查看更多更全内容