发布时间:2024-11-16 14:01
对于各种视觉任务来说,例如图像分类、目标检测、语义分割等,一个先进的backbone往往能够显著地提高性能。由于Transformer自身强大的建模能力,自Vit将Transformer引入CV以来,基于Transformer的backbone,如swin-Transformer等迅速占据了各种任务的排行榜。
卷积运算采用静态权值,适应性差。
depthwise separable convolution,由depthwise(DW) convolution和pointwise(PW) convolution两个部分结合起来,目的是降低网络参数量和计算量。
假设输入shape为 Cin x Hin x Win,卷积核大小为 K x K,输出shape为 Cout x Hout x Wout
经典卷积核
参数为 K x K x Cin x C****out
计算量为 K x K x Cin x Cout x Hout x W****out
深度可分离卷积
参数为 K x K x Cin + C****in x Cout
计算量为 K x K x Cin x Hout x Wout+ Cin x Cout x Hout x W****out
相除得到深度可分离卷积的参数量和计算量是经典卷积的_** 1/Cout + 1/(K x K)**_
注意机制可以看作是一个自适应选择过程,它可以根据输入特征选择有区别的特征,并自动忽略噪声响应。有两种众所周知的方法来建立不同部分之间的关系。
为了克服上述缺点,并利用self-attention和大核卷积的优点,我们提出分解一个大核卷积运算来捕获long-range relationship。如下图所示:
一个大核卷积可以分为三个分量: 深度卷积(depth-wise卷积)、深度扩张卷积(depth-wise dilation卷积)和通道卷积(1x1卷积)。其中,一个K x K卷积分解为⌈K/d⌉×⌈K/d⌉深度卷积,同时包含dilation=d、(2d−1)× (2d−1)深度卷积和一个1x1卷积。通过上述分解,模块可以捕获长距离的关系,但计算成本和参数都很小。在获得长期关系后,我们可以估计一个点的重要性,并生成注意图。
LKA结合了卷积和自注意的优点。它考虑了局部的语境信息、大的接受域和动态过程。LKA不仅在空间维度上具有适应性,而且在通道维度上也具有适应性。值得注意的是,在深度神经网络中,不同的通道通常代表不同的对象,通道维度的适应性对于视觉任务也很重要。