发布时间:2023-08-12 10:30
https://arxiv.org/abs/2102.00719
SlowFast/README.md at master · bomri/SlowFast · GitHub
ICCV2021
Video action recognition
总结:相当于把CNN+LSTM结构中的LSTM替换为VTN
适用于处理长视频,在inference时可以一次输入整个视频
模型框架是模块化的,2D backbone可以换成不同的网络,注意力模块也可以设置为不同的transformer模型,修改分类头可以适用于不同的视频任务。
与当前其他的视频处理网络不同,VTN不使用3D卷积,而是采用2D的空间卷积来得到空间信息,并利用Longformer进行时间处理。
总体结构一共可以分为三个部分:
使用一些spatial backbones pre-trained on 2D images来测试VTN的效果: