深度学习中的人体姿态估计概述

发布时间：2022-08-19 12:33

前言

本文概述了多人姿态估计任务，重点介绍了深度学习中的一些多人姿态估计方法，并简要介绍了多人姿态估计的应用场景。

本文来自公众号CV技术指南的技术总结系列

关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

人体姿势骨架以图形格式表示人的方向。本质上，它是一组可以连接起来描述人的姿势的坐标。骨架中的每个坐标都称为零件（或关节或关键点）。两个部分之间的有效连接称为一对（或肢体）。请注意，并非所有零件组合都会产生有效的配对。下面显示了一个示例人体姿势骨架。

左：人体姿势骨架的 COCO 关键点格式。右图：渲染的人体姿势骨架。

多年来，人们引入了几种人体姿势估计方法。最早（也是最慢）的方法通常是在只有一个人的图像中估计单个人的姿势。这些方法通常首先识别各个部分，然后在它们之间形成连接以创建姿势。

自然，这些方法在许多图像包含多人的现实生活场景中并不是特别有用。

多人姿势估计

多人姿态估计比单人情况更困难，因为图像中的位置和人数是未知的。通常，我们可以使用以下两种方法之一来解决上述问题：