发布时间:2023-04-03 15:00
论文地址:https://arxiv.org/abs/2102.00719
在视频任务下,传统卷积方法中为了更好的提取时序特征,一般采用3D的卷积方式,其中的计算量不管怎么改进也避免不了计算量大的问题。
Transformers一开始用于具有连续性的语言模型上,在视频任务中由于视频帧也具有连续性,所以也同样可以使用。但有个问题是,基于transformer的模型自注意操作每层复杂度为 O ( n 2 ) O(n^{2}) O(n2)(n为序列长度),因此在处理长视频序列时受到限制。
抛弃3D网络。使用最先进的2D架构来学习空间特征表示,并在随后的数据流中添加时间信息,在结果特征之上使用注意机制。
并且输入只有RGB视频帧
VTN的时间处理组件是基于Longformer,可以处理长视频序列。
Longformer通过引入复杂度为 O ( n ) O(n) O(n) 的注意机制实现了冗长的序列处理。这种注意机制结合了局部上下文的自我注意(通过滑动窗口执行)和特定于任务的全局注意。
上图为VTN结构。连接三个模块:
本文作者使用Longformer模块在推理过程中一次性处理整个视频。
Longformer操作使用滑动窗口注意,使计算的复杂度为线性
在通过Longformer层传播序列之后,使用与 [ C L S ] [CLS ] [CLS]分类标记相关的特征的最终状态作为视频的最终表示,并将其应用于给定的分类任务头。
MLP head包含两个线性层与者之间存在的一个GELU激活函数和Dropout。输入标记表示首先使用层归一化进行处理。
1、3、6、12层Longformer的表现相差不大,可能是Kinetics-400数据集的视频只有10s,相对较短。
top-1和top-5精度相似,说明VTN不受这些超参数的影响。
微调2D backbone 使Kinetics-400数据集中top1的准确率提升了7%
论文地址:https://arxiv.org/abs/2004.05150
问题
传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个token都要与其他所有token进行交互。其attention复杂度高达 O ( n 2 ) O(n^{2}) O(n2) 。
此前的解决办法是将长文切分为若干个较短的文本序列,然后逐个处理。这就导致不同的文本序列之间无法进行交互,因而必然存在大量信息损失。
当然,我们也可以通过添加一些其他机制来加强这种文本序列之间的交互。但这种新增机制实现起来通常比较复杂,而且往往是特定任务的,通用性不强。
解决方法
Longformer改进了Transformer的传统attention机制:对于每一个token,只对固定窗口大小的附近token计算local attention,并结合具体任务,计算少量的global attention。该方法的优点包括:
复杂度低,将attention机制的复杂度降至 O ( n ) O(n) O(n)
通用性强,可用于各类文档级任务
部署容易。
作者共提出了三种新的attention pattern,来降低传统self-attention的复杂度,分别是滑窗机制、膨胀滑窗机制、融合全局信息的滑窗机制。下图展示了传统attention与这三种attention pattern的示意图。
STM32 oled实现多级子菜单,框架清晰易懂易维护,超级实用
【VisionMaster 行业应用案例】第一讲 光伏丝网印刷应用
Vue3+vite配置postcss-pxtorem报错[plugin:vite:css] Failed to load PostCss config
【论文阅读】[meta learning]cross-domain few-shot classification via learned feature-wise transformation.
从傅里叶级数(Fourier series)到离散傅里叶变换(Discrete Fourier transform)