【深度学习】SETR:基于视觉 Transformer 的语义分割模型

发布时间:2024-01-12 14:00

Visual Transformer

Author:louwill

Machine Learning Lab

    

自从Transformer在视觉领域大火之后,一系列下游视觉任务应用研究也随之多了起来。基于视觉Transformer的语义分割正是ViT应用最多的一个经典视觉任务之一。

在视觉Transformer介入语义分割之前,基于深度学习的语义分割是被以UNet为代表的CNN模型主导的。基于编解码结构的FCN/UNet模型成为语义分割领域最主流的模型范式。本文介绍基于ViT的语义分割的第一个代表模型——SEgementation TRansformer (SETR),提出以纯Transformer结构的编码器来代替CNN编码器,改变现有的语义分割模型架构。

提出SETR的这篇论文为Rethinking Semantic Segmentation from a Sequence-to-Sequence  Perspective with Transformers,发表于2021年3月份,是由复旦和腾讯优图联合提出的一个基于ViT的新型架构的语义分割模型。

SETR的基本结构

SETR的整体模型结构如图1所示。

【深度学习】SETR:基于视觉 Transformer 的语义分割模型_第1张图片

图1 SETR结构

SETR的核心架构仍然是Encoder-Decoder的结构,只不过相比于传统的以CNN为主导的编码器结构,SETR用Transformer来进行替代。图1中(a)图是SETR的整体架构,可以看到编码器是由纯Transformer层构成。

SETR编码器流程跟作为backbone的ViT模型较为一致。先对输入图像做分块处理,然后对每个图像分块做块嵌入并加上位置编码,这个过程就将图像转换为向量序列。之后就是Transformer block,里面包括24个Transformer层,每个Transformer层都是由MSA+MLP+Layer Norm+残差连接组成。

SETR的一个特色在于解码器的设计。将2D的编码器输出向量转换为3D特征图之后,论文中给SETR设计了三种解码器上采样方法。第一种就是最原始的上采样,论文中叫Naive upsampling,通过简单的1x1卷积加上双线性插值来实现图像像素恢复。这种上采样方法简称为SETR-Naive。

重点是第二种和第三种解码器设计。第二种解码器设计叫渐进式上采样 (Progressive UPsampling),作者认为一步到位式的上采样可能会产生大量的噪声,采样渐进式的上采样则可以最大程度上缓解这种问题。渐进式的上采样在于,每一次上采样只恢复上一步图像的2倍,这样经过4次操作就可以回复原始图像。这种解码设计简称为SETR-PUP,如图1中的(b)图所示。第三种解码设计为多层次特征加总 (Multi-Level feature Aggregation, MLA),这种设计跟特征金字塔网络类似,如图1中(c)图所示。

表1是基于不同预训练和backbone的SETR变体模型的参数量和效果展示。

表1 SETR模型细节

【深度学习】SETR:基于视觉 Transformer 的语义分割模型_第2张图片

SETR训练与实验

SETR在主流的语义分割数据集上都做了大量实验,包括Cityscapes、ADE20K和PASCAL Context等数据集。SETR在多个数据集上都取得了SOTA的结果,如表2和表3所示。

表2 SETR在ADE20K上的表现

【深度学习】SETR:基于视觉 Transformer 的语义分割模型_第3张图片

表3 SETR在PASCAL Context上的表现

【深度学习】SETR:基于视觉 Transformer 的语义分割模型_第4张图片

图2是SETR在ADE20K数据集上的分割效果,左侧列为FCN分割效果,右侧列为SETR的分割效果。可以看到,SETR分割效果要明显优于FCN。

【深度学习】SETR:基于视觉 Transformer 的语义分割模型_第5张图片

总结

总体而言,SETR的几个重要贡献如下:

  • 为基于FCN/UNet等CNN分割模型的语义分割提供了不同的思路,即基于序列的图像分割视角。Transformer作为这种序列模型的一个实现实例,SETR充分的探索了ViT的分割能力。

  • 设计了三种不同的解码器上采样方法,深入探索了不同的上采样设计的像素恢复效果。

  • 实验证明了基于Transformer的语义分割能够学习到超过FCN等CNN结构的语义表征。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号