行为识别 - Video Transformer Network

发布时间：2023-09-18 10:00

0. 前言

Transformer 用到视觉中的主要问题就是，如何构建输入序列。
- VIT 将 Transformer 引入图像分类，就是将图像分为若干个不重叠的patch作为输入序列。
- 那么一个视频，要如何转换为序列，作为Transformer的输入呢

Transformer 的输入要求是一个序列，每个元素是一个特征。
- VTN 中，序列就是一组视频帧，每一帧通过 2D feature extractor 提取特征。
TimeFormer 本质就是对普通的普通 Transformer 的一些改进
- 存在的问题：目前对长视频（或者说长序列）的处理很不符合常识，比较尴尬。
- 目前处理长视频的方法：
  - 目前行为识别模型的主要抽帧策略是 dense strategry（短视频取多帧）或 uniform strategy（将长视频分为若干段，每一段提取一帧），两种方法都有很明显的短板。
  - 比如对一段时间内的视频切分为多个clip，每个clip分别分类，平均所有clip的预测结果。
  - 有些是对每个clip使用多个view（也可以理解为Crop），比如SlowFast中的10个clip*3个view
- Transformer本来就是处理序列任务的，那么长序列任务有什么方法呢？之前NLP领域就提出了TimeFormer 的方法，其核心如下图所示
  - 普通Transformer有多个q/k/v，每个q要跟所有k计算相似度+softmax、与v相乘累加，如下图左一
  - 但随着序列长度增加，这个计算量太高了，所以每个q不是跟每个k计算相似度，而是跟部分k，具体选择哪些k就有下图的右边三张。