视频实时多人姿态估计 cpu fps33+

发布时间：2023-09-23 11:30

基于人体姿态的时空动作检测(cpu fps25+)
实时视频动作检测(action detection)
基于人体姿态的跌倒检测.
yolov5 烟雾和火焰检测
文章用到的恒源云详细说明

多人姿态估计是近几年众多领域研究的热点问题。在学科交叉研究方面，人体姿态估计及到计算机科学、运动人体科学、环境行为学和材料科学等。随着相关研究的逐步深入以及计算机视觉、5G通信的飞速发展，人体姿态估计技术已应用于自动驾驶、影视创作、安防异常事件监测和体育竞技分析、康复等实际场景。成为人工智能领域研究的前沿课题，此类研究也将在竞技体育、运动康复、日常健身等方面发挥非常重大的意义。

采用类似centernet结构。
1.Backbone很简单
2.Header的构建就更简单了，输入backbone的特征图，经过各自的几个卷积层，最后输出各自维度的特征图即可。head_center，head_reg，head_offset以便说明：head_heatmap的维度是[N,K,H,W]，n是batchsize，训练时自己指定，预测时一般为1；K代表关键点数量，比如17；H、W就是对应的特征图了，这里输入是192x192，降采样4倍就是48x48；它所代表的意义就是当前图像上所有人的关键点的heatmap，注意是所有人的；head_center的维度是[N,1,H,W]，这里的1代表的是当前图像上所有人的中心点的heatmap，你可以简单理解为关键点，因为只有一个，所以通道为1；即每一个人的所有关键点的算术平均数，但是我实测这样效果并不好，我自己最终是取得所有关键点得最大外接矩形的中心点，当存在一些较远的关键点的时候，可能算术平均数可以很好的训练大部分距离近的点，但是对较远的点效果差点，而我比较关注手腕这种较远的点，按我这么取对每一个点学习起来差不多，这个就仁者见仁智者见智了，以自己场景实验结果为准；head_reg的维度是[N,2K,H,W]，K个关键点，坐标用x,y表示，那么就有2K个数据，就是对应这里的2K通道；那么数据如何构造呢？根据模型结构的拆解，就是在每个人的center坐标位置，按2K通道顺序依次赋值x1,y1,x2,y2,…，这里的x、y代表的是每个人的关键点相对于中心点的偏移值，原始用的是特征图48尺寸下的绝对偏移值，实测换成相对值（即除以size48转换到0-1区间）也是可以的，可以稍微加快收敛，不过几乎没有区别；head_offset的维度是[N,2K,H,W]，通道意义一样都是对应K个关键点的坐标，只不过上面是回归偏移值，这里是offset，含义是我们模型降采样特征图可能存在量化误差，比如192分辨率下x=0和x=3映射到48分辨率的特征图时坐标都变为了0。

源码直接用预训练没有训练代码源码下载
demo视频
下载后有问题可以加) 568897492

视频实时多人姿态估计 cpu fps33+

相关推荐