出品人:Towhee 技术团队
在去年 Swin Transformer 获得 ICCV 2021 最佳论文后,微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜,在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络!该模型在 Kinetics-400 上的准确率为 84.9% top-1,在 Something-Something v2 上的准确率为 69.6% top-1。
Video Swin Transformer: an illustrated example of 3D shifted windows
从图像领域拓展到视频领域,Swin Transformer 在原来的基础上引入局部性的归纳偏置,并且有效利用了预训练图像模型。与之前相比,Video Swin Transformer 即使时空分解也可以全局计算自注意力,因此能够更好地权衡速度与准确率。
参考资料:
模型用例:action-classification/video-swin-transformer
官方说明:屠榜视频理解几大任务!微软提出:Video Swin Transformer
其他资料:视频分类利器之Video Swin Transformer
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)