CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

AI人工智能1年前 (2023)发布 ash
466 0

近日,计算机视觉顶会CVPR 2022公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收。


该论文突破性地提出分布感知式单阶段模型,用于解决极具挑战性的多人3D人体姿态估计问题。

该方法通过一次网络前向推理同时获取3D空间中人体位置信息以及相对应的关键点信息,从而简化了预测流程,提高了效率。此外,该方法有效地学习了人体关键点的真实分布,进而提升了基于回归框架的精度。

多人3D人体姿态估计是当前的一个热点研究课题,也具有广泛的应用潜力。在计算机视觉中,基于单张RGB图片的多人3D人体姿态估计问题通常通过自顶向下或是自底向上的两阶段方法来解决,然而两阶段的方法需忍受大量的冗余计算以及复杂的后处理,其低效率深受诟病。此外,已有方法缺少对人体姿态数据分布的认知,从而无法准确地求解从2D图片到3D位置这一病态问题,以上两点限制了已有方法在实际场景中的应用。

美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)在CVPR 2022发表的论文,提出一种

分布感知式单阶段模型

,并利用这一模型从单张RGB图片中估计多个人在3D相机空间中的人体姿态。该方法将3D人体姿态表示为2.5D人体中心点和3D关键点偏移量,以适配图片空间的深度估计,同时这一表示将人体位置信息和对应的关键点信息进行了统一,从而使得单阶段多人3D姿态估计成为可能。

此外,该方法在模型优化过程中对人体关键点的分布进行了学习,这为关键点位置的回归预测提供了重要的指导信息,进而提升了基于回归框架的精度。这一分布学习模块可以与姿态估计模块在训练过程中通过最大似然估计一起学习,在测试过程中该模块被移除,不会带来模型推理计算量的增加。为了降低人体关键点分布学习的难度,该方法创新性地提出了一种迭代更新的策略以逐渐逼近目标分布。


该模型以

全卷积

的方式来实现,可以进行端到端的训练和测试。

通过这样一种方式,该算法可以有效且精准地解决多人3D人体姿态估计问题,在取得和两阶段方法接近的精度的同时,也大大提升了速度。

CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

  • 论文链接:https://arxiv.org/abs/2203.07697


背景

多人3D人体姿态估计是计算机视觉中的经典问题,它被广泛地应用于AR/VR、游戏、运动分析、虚拟试衣等,近年来随着元宇宙概念的兴起,更是让这一技术备受关注。目前,通常采用两阶段方法来解决该问题:自顶向下方法,即先检测图片多个人体的位置,之后对检测到的每个人使用单人3D姿态估计模型来分别预测其姿态;自底向上方法,即先检测图片中所有人的3D关键点,之后通过相关性将这些关键点分配给对应的人体。

尽管两阶段方法取得了良好的精度,但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息,这使得速率通常难以满足实际场景的部署需求,因此多人3D姿态估计算法流程亟需简化。另一方面,在缺少数据分布先验知识的情况下,从单张RGB图片中估计3D关键点位置,特别是深度信息,是一个病态问题。这使得传统的应用于2D场景的单阶段模型无法直接向3D场景进行扩展,因此学习并获取3D关键点的数据分布是进行高精度多人3D人体姿态估计的关键所在。

为了克服以上问题,该论文提出了一种分布感知式单阶段模型(

D

istribution-

A

ware

S

ingle-stage model,

DAS

)用于解决基于单张图片的多人3D人体姿态估计这一病态问题。DAS模型将3D人体姿态表示为2.5D人体中心点和3D人体关键点偏移,这一表示有效地适配了基于RGB图片域的深度信息预测。

同时,它也将人体位置信息和关键点位置信息进行了统一,从而使得基于单目图片的单阶段多人3D姿态估计方法成为可能。另外,DAS模型在优化过程中对3D关键点的分布进行学习,这为3D关键点的回归提供了极具价值的指导性信息,从而有效地提升了预测精度。

此外,为了缓解关键点分布估计的难度,DAS模型采用了一种迭代更新策略以逐步逼近真实分布目标,通过这样一种方式,DAS模型可以高效且精准地从单目RGB图片中一次性获取多个人的3D人体姿态估计结果。




单阶段多人3D姿态估计模型


在实现上,DAS模型基于回归预测框架来构建,对于给定图片,DAS模型通过一次前向预测输出图片中所包含人物的3D人体姿态。DAS模型将人体中心点表示为中心点置信度图和中心点坐标图两部分,如图1 (a) 和 (b) 所示,其中,DAS模型使用中心点置信度图来定位2D图片坐标系中人体投影中心点的位置,而使用中心点坐标图来预测3D相机坐标系内人体中心点的绝对位置。DAS模型将人体关键点建模为关键点偏移图,如图1 (c) 所示。DAS模型将中心点置信度图建模为二值图,图中每个像素点表示人体中心点是否在该位置出现,如果出现则为1,否则为0。

DAS模型将中心点坐标图以稠密图的方式进行建模,图中每个像素点编码了出现在该位置的人物中心在x、y和z方向的坐标。关键点偏移图和中心点坐标图建模方式类似,图中每个像素点编码了出现在该位置的人体关键点相对于人体中心点在x、y、z方向的偏移量。DAS模型可以在网络前向过程中以并行的方式输出以上三种信息图,从而避免了冗余计算。

此外,DAS模型可以使用这三种信息图简单地重建出多个人的3D姿态,也避免了复杂的后处理过程,与两阶段方法相比,这样一种紧凑、简单的单阶段模型可以取得更优的效率。



CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图1 用于多人3D人体姿态估计的分布感知式单阶段模型流程图



分布感知学习模型

对于回归预测框架的优化,已有工作多采用传统的L1或者L2损失函数,但研究发现这类监督训练实际上是在假设人体关键点的数据分布满足拉普拉斯分布或者高斯分布的前提下进行的模型优化

[12]

。然而在实际场景中,人体关键点的真实分布极为复杂,以上简单的假设与真实分布相距甚远。与现有方法不同,DAS模型在优化过程中学习3D人体关键点分布的真实分布,指导关键点回归预测的过程。

考虑到真实分布不可追踪的问题,DAS模型利用标准化流(Normalizing Flow)来达到对于模型预测结果概率估计的目标,以生成适合模型输出的分布,如图2所示。该分布感知模块可以同关键点预测模块一起在训练过程中通过最大似然估计的方法进行学习,完成学习之后,该分布感知模块会在预测过程中进行移除,这样一种分布感知式算法可以在不增加额外计算量的同时提升回归预测模型的精度。

此外,用于人体关键点预测的特征提取于人体中心点处,这一特征对于远离中心点的人体关键点来说表示能力较弱,和目标在空间上的不一致问题会引起预测的较大误差。为了缓和这一问题,该算法提出了迭代更新策略,该策略利用历史更新结果为出发点,并整合中间结果附近预测值以逐步逼近最终目标,如图3所示。



CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图 2 标准化流




CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图 3 迭代优化策略


该算法模型通过全卷积网络(Fully Convolutional Networks, FCNs)实现,训练和测试过程都可以以端到端的方式进行,如图4所示。根据实验结果,如图5所示,单阶段算法和已有state-of-the-art两阶段方法相比,可以取得接近甚至更优的精度,同时可以大幅提升速度,证明了其在解决多人3D人体姿态估计这一问题上的优越性,详细实验结果可参考表1和表2。根据单阶段算法的可视化结果,如图6所示,该算法能够适应不同的场景,例如姿势变化、人体截断以及杂乱背景等来产生精确的预测结果,这进一步说明了该算法的健壮性。



CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图 4分布感知式单阶段多人3D人体姿态估计网络结构




CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图 5 与现有state-of-the-art两阶段算法对比结果




CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

表 1 CMU Panoptic Studio数据集结果比较




CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

表 2 MuPoTS-3D数据集结果比较




CVPR 2022 | 精准高效估计多人3D姿态,美图&北航联合提出分布感知式单阶段模型

图 6 可视化结果



总结

在本论文中,来自美图和北航的研究者们创新性地提出了一种分布感知式单阶段模型,用于解决极具挑战性的多人3D人体姿态估计问题。与已有的自顶向下和自底向上这种两阶段模型相比,该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息,从而有效地简化预测流程,同时克服了已有方法在高计算成本和高模型复杂度方面的弊端。

另外,该方法成功将标准化流引进到多人3D人体姿态估计任务中以在训练过程中学习人体关键点分布,并提出迭代回归策略以缓解分布学习难度来达到逐步逼近目标的目的。通过这样一种方式,该算法可以获取数据的真实分布以有效地提升模型的回归预测精度。

研究团队
本论文由美图影像研究院(MT Lab)和北京航空航天大学可乐实验室(CoLab)研究者们共同提出。美图影像研究院(MT Lab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队,为美图现有和未来的产品提供核心算法支持,并通过前沿技术推动美图产品发展,被称为「美图技术中枢」,曾先后多次参与CVPR、ICCV、ECCV等计算机视觉国际顶级会议,并斩获冠亚军十余项。

引用文献:

[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

© 版权声明

美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景

AI人工智能1年前 (2023)发布 ash
0 0

2022年7月1日,美图影像研究院(MT Lab)联合北京航天航空大学、中国人民大学在ACM国际多媒体会议(ACM International Conference on Multimedia, ACM MM)上主办的第四届Person in Context(PIC)竞赛圆满收官。

美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景

此次PIC竞赛因其前沿性和实用性吸引了来自清华大学、北京大学、上海交通大学、香港大学、中国科学技术大学等知名高校,以及腾讯、京东、小米、bilibili等知名企业共58支队伍报名参赛,

参赛人数再创新高

竞赛共分设三个赛道,涵盖视频内容时序定位、视频描述生成,视频内容时空定位等跨模态任务。其中“美妆视频时域定位”和“美妆视频密集描述生成”双赛道冠军是来自南方科技大学、香港大学和腾讯ARC Lab的校企联合队伍,“视频中的人物时空定位”赛道冠军来自中山大学的团队。

其中,由南方科技大学、香港大学和腾讯ARC Lab组成的团队为“美妆视频时域定位”赛道和“美妆视频密集描述生成”赛道提出了一种统一的解决框架,同时斩获了两个赛道的冠军。该团队认为视频时域定位任务和视频密集描述生成任务本质上都是在挖掘视频中事件和文本句子之间的对齐关系,但是两个任务有不同的侧重点和优势。具体来说,时域定位任务能够提升模型对于视频内容的时序敏感性,而描述生成任务能够聚焦到视频中更多的语义信息。使用一个统一的框架同时训练两个任务,能够结合两个任务的优势,学习到既有时序敏感性,又有语义丰富度的视频事件级别的特征。



美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景

图1:冠军团队为“视频时域定位”和“视频密集描述生成”赛道提出的统一模型框架




来自中山大学的团队为“视频中的人物时空定位”赛道提出了简单有效的STVGFormer,通过静态和动态分支结合对时空视觉语言依赖关系进行建模。静态分支在单帧图像中进行跨模态理解,根据表观等视觉线索对目标物体进行空间定位;而动态分支在多帧图像上进行跨模态理解,根据动态视觉信息(如运动)预测目标行为的开始和结束时间。通过进一步设计了一种新的静态-动态交互块,使静态和动态分支实现信息互补,进一步提升了效果。



美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景

图2:中山大学团队为“视频中的人物时空定位”赛道提出的STVGF



本届PIC竞赛依托于ACM MM举办

,这是计算机图形学与多媒体领域的国际顶级会议,也是中国计算机学会(CCF)推荐的A类会议之一,由全球最大、影响力最广的计算机领域专业性学术组织ACM (国际计算机协会,Association for Computing Machinery ) 发起,其所评选的图灵奖(A.M. Turing Award)是计算机领域的国际最高奖项。

美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景


ACM MM自举办以来,致力于为全世界多媒体研究领域的优秀学者提供相互交流的平台

,吸引了包括卡内基梅隆大学、哥伦比亚大学、MIT Media Lab、谷歌、微软、IBM等在内的学术界与科技行业顶尖企业参与,共享最新研究成果并探讨前沿发展趋势,

被誉为多媒体技术领域“奥运级别”的顶级盛会

此次美图公司携手ACM MM举办PIC竞赛,关注以人为中心的视频内容理解,三个赛道的数据与赛题均贴近真实场景,

聚焦于业务场景所面临的问题与挑战,其中两个赛道以备受关注的“美妆”场景为主题。

近年来,随着颜值经济崛起, 用户对美有了更高层次的追求,变美行业获得快速增长。

作为一家以“美”为核心的科技公司,美图公


司凭借深厚的技术积累,不断赋能变美赛道,致力于为用户提供更优质的变美体验。

与此同时,实现学术研究成果与行业应用的结合是美图公司举办比赛的初心,也希望能够为来自中外高校与科技企业的杰出人才提供一个交流与竞技的平台,共同探索以AI为核心的前沿科学技术。

美图携手ACM Multimedia 2022举办第四届PIC竞赛 聚焦美妆场景

作为ACM MM 2022竞赛的主办方,

美图公司始终坚持围绕影像科技驱动创新,持续加码研发投入

,根据美图公司2021年财报显示,整体研发投入达人民币5.455亿元,同比2020年增长35%。秉持“科技让美更简单”的使命,美图公司于2010年成立了核心研发部门——美图影像研究院(MT Lab),致力于计算机视觉、深度学习、计算机图形学等人工智能(AI)相关领域的研发,对美图秀秀、美颜相机等美图旗下全系产品提供技术支持,同时面向影像行业内多个垂直赛道提供针对性SaaS业务,通过前沿技术推动美图的产品发展,在人脸技术、人体技术、图像识别、图像处理、图像生成、AR等等多个方向处于世界领先水平,被称为“美图技术中枢”。


凭借美图影像


研究院(MT Lab)领先的影像技术,美图公司在精准把握用户需求的基础上,持续加快产品升级步伐

,在影像产品功能创新迭代、影像产品个性化服务、SaaS业务等方面构建独特优势,能够满足不同用户群体的使用需求。

未来,美图公司仍将深耕变美赛道,致力于创新技术的研发与突破,积极联合学术、产业等多方优势,在人才培养、学术研究、技术研发等方面做出有益探索,助力科技成果加速转化,

在引领影


像行业不断创新发展的同时,让更多用户享受到“科技让美更简单”的乐趣,也将持续提升对美丽产业的赋能。

© 版权声明

相关文章

暂无评论

暂无评论...