发布时间:2022-08-19 12:33
前言
本文概述了多人姿态估计任务,重点介绍了深度学习中的一些多人姿态估计方法,并简要介绍了多人姿态估计的应用场景。
本文来自公众号CV技术指南的技术总结系列
关注公众号CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。
人体姿势骨架以图形格式表示人的方向。本质上,它是一组可以连接起来描述人的姿势的坐标。骨架中的每个坐标都称为零件(或关节或关键点)。两个部分之间的有效连接称为一对(或肢体)。请注意,并非所有零件组合都会产生有效的配对。下面显示了一个示例人体姿势骨架。
左:人体姿势骨架的 COCO 关键点格式。右图:渲染的人体姿势骨架。
多年来,人们引入了几种人体姿势估计方法。最早(也是最慢)的方法通常是在只有一个人的图像中估计单个人的姿势。这些方法通常首先识别各个部分,然后在它们之间形成连接以创建姿势。
自然,这些方法在许多图像包含多人的现实生活场景中并不是特别有用。
多人姿态估计比单人情况更困难,因为图像中的位置和人数是未知的。通常,我们可以使用以下两种方法之一来解决上述问题:
简单的方法是首先结合一个人检测器,然后估计各个部分,然后计算每个人的姿势。这种方法被称为自上而下的方法。
另一种方法是检测图像中的所有部分(即每个人的部分),然后关联/分组属于不同人的部分。这种方法被称为自下而上的方法。