ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了！

发布时间：2024-05-11 11:01

出品人：Towhee 技术团队

在去年 Swin Transformer 获得 ICCV 2021 最佳论文后，微软亚洲研究院又在今年推出了视频领域的佳作 Video Swin Transformer 。Video Swin Transformer 模型在 CVPR 2022 中性能屠榜，在动作识别和时序建模任务上都优于 ViViT、TimeSformer 等网络！该模型在 Kinetics-400 上的准确率为 84.9% top-1，在 Something-Something v2 上的准确率为 69.6% top-1。

Video Swin Transformer: an illustrated example of 3D shifted windows

从图像领域拓展到视频领域，Swin Transformer 在原来的基础上引入局部性的归纳偏置，并且有效利用了预训练图像模型。与之前相比，Video Swin Transformer 即使时空分解也可以全局计算自注意力，因此能够更好地权衡速度与准确率。

参考资料：

模型用例：action-classification/video-swin-transformer

论文地址：Video Swin Transformer

官方说明：屠榜视频理解几大任务！微软提出：Video Swin Transformer

其他资料：视频分类利器之Video Swin Transformer

更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/...) ，您的关注是我们用爱发电的强大动力，欢迎 star, fork, slack 三连 :)

ICCV 2021 的最佳论文模型 Swin Transformer 终于对视频下手了！

相关推荐