[Video Transformer] VTN: Video Transformer Network

发布时间：2023-08-12 10:30

https://arxiv.org/abs/2102.00719

SlowFast/README.md at master · bomri/SlowFast · GitHub

ICCV2021

Video action recognition

总结：相当于把CNN+LSTM结构中的LSTM替换为VTN

适用于处理长视频，在inference时可以一次输入整个视频

模型框架是模块化的，2D backbone可以换成不同的网络，注意力模块也可以设置为不同的transformer模型，修改分类头可以适用于不同的视频任务。

与当前其他的视频处理网络不同，VTN不使用3D卷积，而是采用2D的空间卷积来得到空间信息，并利用Longformer进行时间处理。

总体结构一共可以分为三个部分：

2D 空间特征提取：从每一帧图像中提取特征，可以用CNN也可以用VIT等纯transformer。可以随机初始化并和Longformer一起训练，也可以使用预训练模型并固定权重。
temporal-base encoder：使用了 Longformer 结构。《 Longformer: The long-document transformer》专为处理长序列而设计。在inference时一次处理整个视频。在feature sequence前面加入了一个class token，
classification MLP head：Longformer 的结果其实也是一个向量，最终需要通过FC进行分类。MLP包含两个线性层，Dropout，一个GELU非线性层。

使用一些spatial backbones pre-trained on 2D images来测试VTN的效果：