Pytorch 图像处理中常用的注意力机制的解析与代码详解

发布时间:2023-01-01 23:30

说在前面的前言

什么是注意力机制

代码下载

注意力机制的实现方式

1、SENet的实现

2、CBAM的实现

 3、ECA的实现

注意力机制的应用


说在前面的前言


注意力机制是一个非常有效的trick,注意力机制的实现方式有许多,我们一起来学习一下。

(最近在研究注意力机制内容,顺手写了一些,感谢文后两篇文章的指点。日常记录,会持续更新记录更多的注意力机制架构方法)


什么是注意力机制


        注意力机制是深度学习常用的一个小技巧,它有多种多样的实现形式,尽管实现方式多样,但是每一种注意力机制的实现的核心都是类似的,就是注意力。

        注意力机制的核心重点就是让网络关注到它更需要关注的地方。

        当我们使用卷积神经网络去处理图片的时候,我们会更希望卷积神经网络去注意应该注意的地方,而不是什么都关注,我们不可能手动去调节需要注意的地方,这个时候,如何让卷积神经网络去自适应的注意重要的物体变得极为重要。

        注意力机制就是实现网络自适应注意的一个方式。

        一般而言,注意力机制可以分为通道注意力机制,空间注意力机制,以及二者的结合。


代码下载


Github源码下载地址为:
https://github.com/bubbliiiing/yolov4-tiny-pytorch

复制该路径到地址栏跳转。

注意力机制的实现方式


在深度学习中,常见的注意力机制的实现方式有SENet,CBAM,ECA等等。

1、SENet的实现


SENet是通道注意力机制的典型实现。
        2017年提出的SENet是最后一届ImageNet竞赛的冠军,其实现示意图如下所示,对于输入进来的特征层,我们关注其每一个通道的权重,对于SENet而言,其重点是获得输入进来的特征层,每一个通道的权值。利用SENet,我们可以让网络关注它最需要关注的通道。

其具体实现方式就是:
1、对输入进来的特征层进行全局平均池化
2、然后进行两次全连接。第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同。
3、在完成两次全连接后,我们再取一次Sigmoid将值固定到0-1之间,此时我们获得了输入特征层每一个通道的权值(0-1之间)。
4、在获得这个权值后,我们将这个权值乘上原输入特征层即可。

具体的网络结构图如下:

在这里插入图片描述

 实现代码如下:

#导入库torch和nn
import torch
import torch.nn as nn
import math



# 定义SENet的类
class se_block(nn.Module):
# 定义init函数;
# channel表示输入进来的通道数;
# ratio表示缩放的比例,用于第一次全连接
	def __init__(self, channel, ratio=16):
# 初始化
		super(se_block, self).__init__()
# 定义全局平均池化,输出高宽为1,AdaptiveAvgPool2d表示自适应平均池化
		self.avg_pool = nn.AdaptiveAvgPool2d(1)
# 定义两次全连接fc
# 定义序列模型Sequential
		self.fc = nn.Sequential(
# 定义第一个全连接,神经元个数减少
# 输入神经元个数channel,输出神经元个数channel//ratio,不使用偏置量
			nn.Linear(channel, channel // ratio, bias=False),
# 激活函数ReLU
			nn.ReLU(inplace=True),
# 定义第二个全连接,神经元个数变为原来个数
# 输入神经元个数channel//ratio,输出神经元个数channel,不使用偏置量
			nn.Linear(channel // ratio, channel, bias=False),
# 激活函数Sigmoid,把值固定到0-1之间
			nn.Sigmoid()
		)


# 前传函数
	def forward(self, x):
# 计算输入进来的特征层的size,batch_size,通道数,高,宽
# 其中batch_size表示一次训练所抓取的数据样本数量
		b, c, h, w = x.size()
# 全局平均池化,结果为y(b, c, 1, 1),即去掉后面两个维度
# view(b,c):进行reshape,即只保留b, c
		y = self.avg_pool(x).view(b, c)
# 进行两次全连接fc,b, c -> b, c // ratio -> b, c
# reshape:b, c -> b, c, 1, 1
		y = self.fc(y).view(b, c, 1, 1)
# 把两次全连接的结果×特征层
		return x * y 

2、CBAM的实现

        CBAM将通道注意力机制和空间注意力机制进行一个结合,相比于SENet只关注通道的注意力机制可以取得更好的效果。其实现示意图如下所示,CBAM会对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理在这里插入图片描述

下图是通道注意力机制和空间注意力机制的具体实现方式:
        图像的上半部分为通道注意力机制,通道注意力机制的实现可以分为两个部分,我们会对输入进来的单个特征层,分别进行全局平均池化和全局最大池化。之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,我们会对处理后的两个结果进行相加,然后取一个sigmoid,此时我们获得了输入特征层每一个通道的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。

        图像的下半部分为空间注意力机制,我们会对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行一个堆叠利用一次通道数为1的卷积调整通道数,然后取一个sigmoid,此时我们获得了输入特征层每一个特征点的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。在这里插入图片描述

实现代码如下:

#导入库torch和nn
import torch
import torch.nn as nn
import math


# 定义通道注意力机制的类
class ChannelAttention(nn.Module):
# 定义init函数;
# channel表示输入进来的通道数;
# ratio表示缩放的比例,用于第一次全连接
	def __init__(self, in_planes, ratio=8):
# 初始化
		super(ChannelAttention, self).__init__()
# 平均池化,输出高、宽为1
		self.avg_pool = nn.AdaptiveAvgPool2d(1)
# 最大池化,输出高、宽为1
		self.max_pool = nn.AdaptiveMaxPool2d(1)


# 利用1x1卷积代替全连接,或者用SENet中Sequential模块;
# Linear和Conv2d有什么区别?
		self.fc1  = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
		self.relu1 = nn.ReLU()
		self.fc2  = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)



# 相加后再取sigmoid
		self.sigmoid = nn.Sigmoid()


# 前传部分,out * x 放到最后
	def forward(self, x):
		avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
		max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
		out = avg_out + max_out
		return self.sigmoid(out)


# 空间注意机制不需要传入通道数和ratio,但有卷积核大小3或者7
class SpatialAttention(nn.Module):
	def __init__(self, kernel_size=7):
		super(SpatialAttention, self).__init__()


		assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
# padding = 7整除2 = 3
		padding = 3 if kernel_size == 7 else 1
# 输入通道为2,即一层最大池化,一层平均池化
# 输出通道为1;步长为1,即不需要压缩宽高
		self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
		self.sigmoid = nn.Sigmoid()


# 前传部分,out * x 放到最后
	def forward(self, x):
# 在通道上进行最大池化和平均池化
# 对于pytorch,其通道在第一维度,也就是batch_size之后,dim=1
# 保留通道,所以keepdim=ture
		avg_out = torch.mean(x, dim=1, keepdim=True)
		max_out, _ = torch.max(x, dim=1, keepdim=True)
# 堆叠
		x = torch.cat([avg_out, max_out], dim=1)
 # 取卷积
		x = self.conv1(x)
		return self.sigmoid(x)


# 结合空间和通道注意力机制
class cbam_block(nn.Module):
	def __init__(self, channel, ratio=8, kernel_size=7):
		super(cbam_block, self).__init__()
		self.channelattention = ChannelAttention(channel, ratio=ratio)
		self.spatialattention = SpatialAttention(kernel_size=kernel_size)


	def forward(self, x):
		x = x * self.channelattention(x)
		x = x * self.spatialattention(x)
		return x 

 3、ECA的实现


        ECANet是也是通道注意力机制的一种实现形式ECANet可以看作是SENet的改进版
        ECANet的作者认为SENet对通道注意力机制的预测带来了副作用,捕获所有通道的依赖关系是低效并且是不必要的。
        在ECANet的论文中,作者认为卷积具有良好的跨通道信息获取能力。

        ECA模块的思想是非常简单的,它去除了原来SE模块中的全连接层,直接在全局平均池化之后的特征上通过一个1D卷积进行学习。

        既然使用到了1D卷积,那么1D卷积的卷积核大小的选择就变得非常重要了,了解过卷积原理的同学很快就可以明白,1D卷积的卷积核大小会影响注意力机制每个权重的计算要考虑的通道数量。用更专业的名词就是跨通道交互的覆盖率。

        如下图所示,左图是常规的SE模块,右图是ECA模块。ECA模块用1D卷积替换两次全连接。

在这里插入图片描述

实现代码如下:

#导入库torch和nn

import torch
import torch.nn as nn
import math


# 定义类,继承Module
class eca_block(nn.Module):
# 初始化,根据通道数计算卷积核大小,gamma默认是2
	def __init__(self, channel, b=1, gamma=2):
		super(eca_block, self).__init__()
# 使用Log函数按照输入通道数自适应的计算卷积核大小
		kernel_size = int(abs((math.log(channel, 2) + b) / gamma))
		kernel_size = kernel_size if kernel_size % 2 else kernel_size + 1


# 全局平均池化
		self.avg_pool = nn.AdaptiveAvgPool2d(1)
# 1d卷积通常是在序列模型中使用,1, 1 表示每一个step上的值长度都只有1
		self.conv = nn.Conv1d(1, 1, kernel_size=kernel_size, padding=(kernel_size - 1) // 2, bias=False) 
		self.sigmoid = nn.Sigmoid()


# 前传,一般来讲要计算x的size,b, c, h, w = x.size
	def forward(self, x):
# 或者用view([b, 1, c]),调整y到序列形式,1表示每一个step上的特征长度
		y = self.avg_pool(x)
		y = self.conv(y.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1)
		y = self.sigmoid(y)
		return x * y.expand_as(x)

注意力机制的应用


        注意力机制是一个即插即用的模块,理论上可以放在任何一个特征层后面,可以放在主干网络,也可以放在加强特征提取网络。

        由于放置在主干会导致网络的预训练权重无法使用,本文以YoloV4-tiny为例,将注意力机制应用加强特征提取网络上。

        如下图所示,我们在主干网络提取出来的两个有效特征层上增加了注意力机制,同时对上采样后的结果增加了注意力机制。在这里插入图片描述

实现代码如下:

attention_block = [se_block, cbam_block, eca_block]

#---------------------------------------------------#
#   特征层->最后的输出
#---------------------------------------------------#
class YoloBody(nn.Module):
    def __init__(self, anchors_mask, num_classes, phi=0):
        super(YoloBody, self).__init__()
        self.phi            = phi
        self.backbone       = darknet53_tiny(None)

        self.conv_for_P5    = BasicConv(512,256,1)
        self.yolo_headP5    = yolo_head([512, len(anchors_mask[0]) * (5 + num_classes)],256)

        self.upsample       = Upsample(256,128)
        self.yolo_headP4    = yolo_head([256, len(anchors_mask[1]) * (5 + num_classes)],384)

        if 1 <= self.phi and self.phi <= 3:
            self.feat1_att      = attention_block[self.phi - 1](256)
            self.feat2_att      = attention_block[self.phi - 1](512)
            self.upsample_att   = attention_block[self.phi - 1](128)

    def forward(self, x):
        #---------------------------------------------------#
        #   生成CSPdarknet53_tiny的主干模型
        #   feat1的shape为26,26,256
        #   feat2的shape为13,13,512
        #---------------------------------------------------#
        feat1, feat2 = self.backbone(x)
        if 1 <= self.phi and self.phi <= 3:
            feat1 = self.feat1_att(feat1)
            feat2 = self.feat2_att(feat2)

        # 13,13,512 -> 13,13,256
        P5 = self.conv_for_P5(feat2)
        # 13,13,256 -> 13,13,512 -> 13,13,255
        out0 = self.yolo_headP5(P5) 

        # 13,13,256 -> 13,13,128 -> 26,26,128
        P5_Upsample = self.upsample(P5)
        # 26,26,256 + 26,26,128 -> 26,26,384
        if 1 <= self.phi and self.phi <= 3:
            P5_Upsample = self.upsample_att(P5_Upsample)
        P4 = torch.cat([P5_Upsample,feat1],axis=1)

        # 26,26,384 -> 26,26,256 -> 26,26,255
        out1 = self.yolo_headP4(P4)
        
        return out0, out1

 参考来源:

神经网络学习小记录64——Pytorch 图像处理中注意力机制的解析与代码详解_Bubbliiiing的博客-CSDN博客_pytorch 注意力机制代码神经网络学习小记录63——Pytorch 图像处理中注意力机制的解析与代码详解学习前言什么是注意力机制代码下载注意力机制的实现方式1、SENet的实现2、CBAM的实现3、ECA的实现学习前言注意力机制是一个非常有效的trick,注意力机制的实现方式有许多,我们一起来学习一下。什么是注意力机制注意力机制是深度学习常用的一个小技巧,它有多种多样的实现形式,尽管实现方式多样,但是每一种注意力机制的实现的核心都是类似的,就是注意力。注意力机制的核心重点就是让网络关注到它更需要关注的地方。当我们使用卷https://blog.csdn.net/weixin_44791964/article/details/121371986Pytorch 图像处理中注意力机制的代码详解与应用(Bubbliiiing 深 - 哔哩哔哩2022/4/2忙着搬宿舍 2022/4/3 下午把YoloX下载下来,用自己的数据集跑了一下,因为之后肯定要修改网络,所以预训练权重没法用,只能自...https://www.bilibili.com/read/cv15967296/

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号