[深度学习论文笔记]A Tri-attention Fusion Guided Multi-modal Segmentation Network

发布时间：2022-12-30 21:00

A Tri-attention Fusion Guided Multi-modal Segmentation Network
一种三注意力融合引导的多模态分割网络

Published: 2 Nov 2021
Pattern Recognition 2021
论文： https://arxiv.org/abs/2111.01623

摘要：
在多模态分割领域，可以考虑不同模态之间的相关性来提高分割结果。考虑到不同磁共振模态之间的相关性，本文提出了一种基于新型三注意力融合的多模态分割网络。网络包括具有N个图像源的N个模型无关编码路径、一个三注意力融合块、一个双注意力融合块和一个解码路径。独立于模型的编码路径可以从N个模态中捕获模态特定的特征。考虑到并非所有从编码器中提取的特征都对分割有用，建议使用基于双重注意的融合来重新加权沿模态和空间路径的特征，这可以抑制信息量较少的特征，并强调每个模态在不同位置的有用特征。由于不同模态之间存在很强的相关性，基于双注意融合块，提出了一个相关注意模块来形成三注意融合块。在相关性注意模块中，首先使用相关性描述块来学习模态之间的相关性，然后使用基于相关性的约束来引导网络学习与分割更相关的潜在相关特征。最后，解码器对得到的融合特征表示进行投影，得到分割结果。在BraTS 2018脑瘤分割数据集上的实验结果验证了该方法的有效性。

问题动机：
由于不同模态的不同图像特征，使用单一模型的多模态分割仍然具有挑战性。一个关键的挑战是利用模态之间潜在的相关性，并融合互补信息以提高分割性能。本文提出了一种利用多源相关性的方法，并将其应用于脑肿瘤分割任务。
磁共振成像(MRI)常用于放射学诊断脑肿瘤，它是一种无创性且良好的软组织对比成像方式，可在不使患者暴露于高电离辐射的情况下提供关于脑肿瘤形状、大小和定位的宝贵信息。常用的序列有T1加权(T1)、对比增强T1加权(T1c)、T2加权(T2)和流体衰减反演恢复(FLAIR)图像。在这项工作中，将这些不同序列的图像称为模态。不同的模式可以提供互补的信息来分析不同的胶质瘤分区。例如，T2和FLAIR突出肿瘤周围水肿，指定整个肿瘤。T1和T1c突出显示没有瘤周水肿的肿瘤，指定为肿瘤核心。在T1c中也可以观察到肿瘤核心的高强度增强区域，称为增强肿瘤核心。因此，应用多模态图像可以减少信息的不确定性，提高临床诊断和分割的准确性。
受一个事实的启发，多磁共振模态之间有很强的相关性，因为同一场景(同一患者)由不同的模态观察。提出了一种新颖的三注意力融合来指导三维多模态脑肿瘤分割网络。

这篇文章的主要贡献有:
1)引入了一种新的相关性描述块来发现模态之间潜在的多源相关性。
2)提出了一种利用KL散度的相关约束来辅助分割网络提取相关特征表示，从而实现更好的分割。
3)提出了一种三注意融合策略，沿模态-注意、空间-注意和相关-注意路径对特征表示进行重新加权。
4)提出了第一个三注意力融合指导下的3D多模态脑肿瘤分割网络。

思路来源：
近年来，已经出现了许多传统的脑肿瘤分割方法，包括概率论、核特征选择、信念函数、随机森林、条件随机场和支持向量机。然而，由于脑解剖结构复杂，胶质瘤的形状、纹理不同，磁共振图像对比度低，性能有限(见图1)。

图1:来自训练集的数据示例。从左到右的前四张图像显示了磁共振成像模式:T1加权(T1)、流体衰减反转恢复(FLAIR)、对比增强T1加权(T1c)、T2加权(T2)图像，第五张图像是专家创建的地面真实标签。颜色用于区分不同的肿瘤区域:红色:坏死和非增强肿瘤，黄色:水肿，绿色:增强肿瘤，黑色:健康组织和背景。

最近，各种基于深度学习的方法已经被成功地设计用于脑肿瘤分割，例如CNN ，FCN和U-Net 。一些人利用三个二进制分割子网络开发了一个级联网络来分割脑肿瘤。Chen等人提出了一种新的深度卷积对称神经网络，将对称先验知识结合到脑肿瘤分割中。Zhao等人提出了一种融合FCNNs和CRFs的深度学习模型用于脑肿瘤分割。Myronenko等人提出了一种从多模态3D磁共振成像中分割脑肿瘤的网络，其中可变自动编码器分支被添加到U网中，以在有限的训练数据存在的情况下进一步正则化解码器。Wei等人提出了一种用于脑肿瘤分割的多模型、多尺寸、多视角深度模型。Dolz等人提出了一个深度中枢神经系统的集合来分割多模态磁共振图像中的等强度婴儿大脑。Chen等人提出了一种双注意力训练策略，明确鼓励深度模型学习高质量的多层次特征进行脑肿瘤分割。Zhang等人提出了一种新的用于脑肿瘤分割的跨模态深度特征学习框架，该框架由跨模态特征转换过程和跨模态特征融合过程组成。Pinto等人介绍了一种使用极随机树的自动分级脑肿瘤分割流水线，该极随机树具有基于外观和上下文的特征。（具体的文献可以在论文中找到）
对于多模态分割任务，利用不同模态的互补信息对最终的分割精度起着至关重要的作用。基于单编码器的方法直接融合输入空间中不同的多源图像，而不同模态之间的相关性没有得到很好的利用。基于多编码器的方法分别应用单独的编码器来提取单独的特征表示。并且可以获得比前者更好的分割结果。因为有效的特征表示可以归因于更好的分割性能。受注意机制的启发，这篇文章首先提出了一种基于双重注意的融合块来选择性地强调特征表示，该融合块由模态注意模块和空间注意模块组成。所提出的融合块使用从编码器获得的个体特征来导出模态方向和空间方向的权重图，该权重图量化了每个模态的特征以及每个模态中不同空间位置的相对重要性。然后将这些融合图与各个特征表示相乘，以获得互补多模态信息的融合特征表示。这样，可以发现最相关的特征来辅助分割。
对于多模态磁共振脑肿瘤分割，由于四种磁共振模态来自同一患者，模态之间的肿瘤区域存在很强的相关性。因此，提出了一个相关注意模块，它由一个相关描述块和一个基于KL散度的相关约束组成。它可以利用模态之间的相关性来提高分割性能。在相关注意模块中，首先使用相关描述块来利用空间注意特征表示之间的相关性，然后使用基于KL散度的相关约束来引导分割网络学习相关特征以增强分割结果。这种方法的新颖之处在于能够利用潜在的多源相关性来帮助分割。所提出的方法可以推广到其他应用。

3.具有相关约束的多模态分割：
这篇文章旨在利用模态间的多源相关性，利用相关性约束网络学习更有效的特征，从而提高分割性能。神经网络是一种广泛应用于医学图像分割的神经网络结构。U-Net架构的基本结构由两条路径组成。编码器路径是提取多个不同级别的特征表示。解码器路径允许网络将编码器学习的区别特征投影到像素空间，以获得密集分类。为了从多模态磁共振成像中学习互补特征和跨模态互依关系，应用了基于多编码器的U-Net框架。它在每个编码器中采用3D磁共振成像模态作为输入。每个编码器可以产生特定于模态的特征表示。在网络的最底层，使用三注意力融合模块，包括双注意力融合模块和相关注意力模块。双注意融合块可以沿模态方向和空间方向重新加权特征表示。相关注意模块首先利用空间注意特征表示之间潜在的多源相关性。然后，使用基于相关性的约束来引导网络学习有效的特征信息。最后，解码器将融合后的特征表示投影到标签空间，得到分割结果。图2描述了建议网络的概况。

图2:提出的分割网络的概述。主干网是一个基于多编码器的三维U-Net，独立的编码器使网络能够提取独立的特征表示。提出的双注意融合块是沿着模态和空间路径重新加权特征表示。所述三注意融合块包括双注意融合和相关注意模块。

3.1.编码器和解码器：
分割图像中的不同区域时，很可能需要不同的感受野，标准的U-Net由于感受野有限，无法获得足够的语义特征。受扩张卷积的启发，在编码器部分和解码器部分使用具有扩张卷积的残差块(速率= 2，4) (res dil块)来获得多尺度的特征。编码器包括一个卷积块，一个res_dil块，后面是跳跃连接。所有卷积都是3×3×3。每个解码器级别都是从上采样层开始，然后进行卷积来调整特征的数量。然后，使用级联将上采样的特征与来自编码器部分的相应级别的特征进行组合。在连接之后，使用res_dil块来增加感受野。此外，通过整合来自不同级别的分割结果来形成最终的网络输出，从而对分割解码器采用深度监督。

3.2 Tri-attention融合策略
融合的目的是从不同的源图像中突出最重要的特征，突出与目标区域有很大相关性的区域。因为不同的MR模式可以识别不同的目标肿瘤的属性。此外，同样的MR模态，可以在不同的位置学到不同的内容。受到注意机制的启发，提出了一个双重注意融合块，以更好地整合形态间的互补信息，这包括一个通道注意模块和一个空间注意模块。
受到一个事实的启发，多种MR模式之间有很强的相关性，因为相同的脑肿瘤区域被不同的模式观察到。从图3显示的磁共振图像关节强度，可以观察到每对模式之间的强度分布有很强的相关性(不总是线性的)。为此，可以合理地假设在形态之间的潜在特征表征中也存在着很强的相关性。因此，作者提出了相关注意模块，并将其集成到双注意融合块中，实现了三注意融合块。它被用来开发和利用模式之间的多源关联，该体系结构如图4所示。

图4：三注意力融合策略的架构。首先将各个特征表示（Z1、Z2、Z3、Z4）串联起来，然后通过双注意融合块沿模态注意模块和空间注意模块对它们进行加权，以实现模态注意表示ZIM和空间注意表示Zis。此外，相关注意模块用于约束空间注意表征，以学习分段相关表征。最后，添加Zim和Zisar以获得融合特征表示Zif。
输入模态{Xi，…， Xn}，其中n = 4，是独立编码器的第一个输入(学习参数θ包括滤波器的个数和退出率)，以学习模态特定的表示Zi。然后，使用双注意融合块。它将独立特征表示的拼接作为输入，分别产生模态权值和空间权值。将这两个权重与输入特征表示相乘，分别得到模态-注意特征表示zima和空间-注意特征表示Zis。最后，通过增加模态注意特征表示和空间注意特征表示，得到学习后的融合特征表示。
将得到的空间注意特征表示Zisis传递给由两个完全连通层和LeakyReLU组成的相关描述(CD)块，将空间注意特征表示Zisto映射为一组独立参数Γi= {αi， βi， γi}， i= 1，…最后，通过相关表达式(式1)得到i模态Fican的相关表示。

值得注意的是，在这项工作中作者提出的非线性相关表达式是工作所特有的。然而，所提出的相关性描述块通常可以集成到任何多源相关性问题中，并且具体的相关性表达式将取决于应用。
然后,Kullback-Leibler散度方程(2)是用来测量的差异估计相关特性表示形态和空间注意的特征表示j形态,使分割网络学习的相关特性更相关的细分。为了明确，以T1模态(X1)和T1c模态(X3)为例，由于两种模态之间存在相关性，首先利用空间注意模块获得T1模态(Z1s)和T1c模态(Z3s)的两个空间注意特征表征，然后通过CD块和式1得到模态T1的相关特征表示(F1)。最后，利用基于KL的相关损失函数约束两个分布(f1和Z3s)尽可能接近。对于作者的任务来说，需要测量的是两个特征表示分布之间的差异。为此，作者选择了一个简单且广泛使用的f散度函数，Kullback-Leibler散度。

4.数据和实现细节
4.1 数据
实验中使用的数据集来自BraTS 2018数据集。训练集包括285例患者，每个患者有T1、T1c、T2和FLAIR四种图像模式。随后，四种肿瘤内部结构被分为三个相互包容的肿瘤区域:(a)全肿瘤(WT)，由所有肿瘤组织组成;(b)肿瘤核心(TC)，由强化肿瘤、坏死和非强化肿瘤核心组成;©强化肿瘤(ET)。提供的数据已经由或组织者进行预处理:共同注册到相同的解剖模板，插值到相同的分辨率(1mm3)，并去除头骨。基本事实已经被专家贴上了“男人”的标签。用标准程序做了额外的预处理。采用N4ITK[26]方法对MRI数据畸变进行校正，并采用强度归一化对每个患者的每个模态进行归一化。为了挖掘图像的空间背景信息，作者使用3D图像，将其裁剪并调整大小，从155 × 240 × 240调整为128 × 128 × 128。

4.2实施细节
网络在Keras中实现，采用单个Nvidia GPU Quadro P5000 (16GB)。模型使用Adam优化器(初始学习率= 5e-4)进行优化，学习率系数为0.5，耐心为10个时期，为了避免过度拟合，当验证损失在50个时期内没有改善时，使用early stopping。将数据集随机分为80%的训练和20%的测试。

4.3损失函数的选择
对于分割，使用dice损失来评估预测结果和地面真实的重叠率。

其中N是所有例子的集合，C是类的集合，pij是像素i是肿瘤类j的概率，gij也是如此，还有是一个小常数，避免被0除。

4.4评价指标：
为了评价所提出的方法，使用两个评价指标:Dice Score和Hausdorff距离来获得分割精度的定量测量值:
1) Dice Score:用于评价预测结果与ground truth的重叠率。它的范围从0到1，预测结果越好，Dice值就越大。

其中T P表示真阳性体素数量，F P表示假阳性体素数量，F N表示假阴性体素数量。

2) Hausdorff Distance (HD):在预测结果的边界与ground-truth之间计算，是分割误差最大的指标。预测结果越好，HD值就越小。

其中∂S和∂R是预测和真实注释的肿瘤边界体素集合，dm(v, v)是集合v中体素v和体素之间的最小欧式距离。

5.实验结果
进行了一系列的对比实验来证明所提出的方法的有效性，并与其他方法进行了比较。在第5.1.1节中，首先执行一个消融实验，以了解提出的组件的重要性，并演示添加提出的组件可以提高分割性能。在第5.1.2节中，将方法与最先进的方法进行比较。在5.2节中，定性实验结果进一步证明了所提出的方法能够获得很好的分割结果。

5.1定量分析
为了证明网络的有效性，首先做了一个消融实验，看看提出的组件的有效性，然后将方法与最先进的方法进行比较。所有结果均通过在线评价平台获得。

5.1.1单个模块的有效性
为了评估方法的性能，并看到在网络中提出的组件的重要性，包括双注意融合策略和相关注意模块，做了一个消融实验，网络没有双注意融合和相关注意模块表示为基线。从表1可以看出，基线法增强肿瘤、肿瘤整体、肿瘤核心的Dice Score分别为0.726、0.867、0.764。当双注意融合策略应用于网络时，可以看到所有肿瘤区域的Dice Score、Hausdorff Distance较基线分别提高了0.76%和6.44%。主要原因是，所提出的融合块可以帮助强调来自不同位置的不同模式的最重要的表征，以提高分割结果。此外，该方法的另一个优点是在底层使用了相关注意模块，它可以约束编码器发现模式之间潜在的多源相关表示，然后引导网络学习相关表示，以达到更好的分割效果。从结果中,可以观察到相关的协助下注意模块,网络可以达到最好的骰子得分是0.75,0.887和0.796,豪斯多夫距离为7.687,8.306增强肿瘤,肿瘤,肿瘤核心,分别平均提高3.18%和8.75%的基线。另外，在图7和图8中可视化了三种比较方法的Dice Score和Hausdorff Distance的箱形图。可以观察到与其他两种比较方法相比，本文提出的方法不仅精度更高，而且标准差更小得分和豪斯多夫距离。结果见表1、图7和图8演示每个提议的组件和提议的有效性网络结构可以很好地实现脑肿瘤的分割。

与最先进水平的比较：

表2:在BraTS 2018验证数据集上不同方法的比较，et、WT、TC分别表示增强肿瘤、全肿瘤、肿瘤核心。Avg表示三个肿瘤区域的平均结果，粗体表示最佳结果，下划线表示次佳结果。“-”表示信息未在发表的论文中提供。
由于对BraTS 2018测试集的访问在挑战后被关闭，将提出的方法与BraTS 15 2018在线验证集的最先进方法进行了比较，该验证集包含66张没有基本事实的患者图像。、首先在本地机器上预测分割结果，然后、在线评估平台上提交以获得评估结果。表2显示了比较结果。方法[13]和[21]的实验结果引自。、还对这些最先进的方法进行了计算复杂度比较，包括数据维度、输入大小、网络层数量、初始卷积滤波器数量、数据增强、后处理、使用的GPU和训练时间，如表3所示。
(1)赵等提出将全卷积神经网络(FCNNs)和条件随机场(CRFs)集成到一个统一的框架中，其中使用图像面片和切片的三个分割模型分别在轴向、冠状和矢状视图中训练，并使用基于投票的融合策略将它们组合起来分割脑肿瘤。

(2) Kamnitsas等人引入了双通道3D卷积神经网络，将局部和更大的上下文信息结合起来用于脑肿瘤分割。此外，他们使用三维全连接通用报告格式作为后处理，以消除假阳性。

(3) Hu等提出了用于脑肿瘤自动分割的多级上采样网络(MU-Net)，其中使用了一种新颖的全局注意(GA)模块来组合编码器获得的低级特征图和解码器获得的高级特征图。

(4) Gates等人应用基于DeepMedic的多尺度卷积神经网络分割脑肿瘤。

(5) Tuan等人提出了使用位平面通过确定有效位来生成一系列二值图像。然后，第一个U-Net使用有效位分割肿瘤边界，另一个U-Net使用原始图像和具有最低有效位的图像来预测边界内所有像素的标签。

(6)胡等人介绍了3D-残差-Unet体系结构。该网络包括上下文聚合路径和定位路径，后者编码输入的抽象表示，然后用较浅的特征重组这些表示，以通过定位路径精确定位感兴趣的域。

(7) Myronenko等人提出了一种使用自动编码器正则化的3D MRI脑肿瘤分割方法，其中增加了一个变分自动编码器分支来重构输入图像本身，以便正则化共享解码器并对其层施加附加约束。
从表2中，首先观察到基于U-Net的网络可以获得比基于CNN的网络更好的结果。解释说，U-Net中的跳跃连接可以将来自解码器的高级语义特征图和来自编码器的相应低级详细特征图相结合，这允许网络学习更多有用的特征信息来改善分割。此外，BraTS 2018挑战赛的最佳成绩来在增强肿瘤、全肿瘤和肿瘤核心区域的Dice评分方面分别达到0.814、0.904和0.859。但是从表3可以观察到，它使用了32个初始卷积滤波器和大量内存(需要NVIDIA Tesla V100 32GB GPU)来训练模型，计算量很大。虽然的方法只使用了8个初始过滤器，但16GB的图形处理器足以进行的实验，并且网络使用更少的训练时间。从表2可以看出，提出的方法可以在所有肿瘤区域的骰子点数和豪斯多夫距离方面产生有竞争力的结果。方法的主要优点是它考虑了脑磁共振成像中的多源相关性，以找到那些相关的特征来获得良好的分割。所提出的相关性注意模块是一个通用模块，如果它们之间存在相关性，则可以应用于其他多模态融合应用。此外，与其他方法相比，在增强肿瘤方面具有更好的骰子评分和豪斯多夫距离，而方法使用更小的输入大小但多了一层，最终在所有肿瘤区域上获得了更好的平均骰子评分，提高了3.84%，并且对于豪斯多夫距离也可以获得7.5%的平均提高。

注意力层：
在对网络架构进行实验的同时，测试了在网络的不同层添加相关注意模块。表5显示了比较结果，(0)是不带相关注意模块的方法，作为比较基线。可以看到，在第四层和第六层设置相关注意模块可以获得更好的分割效果。然后在第4层和第6层都设置了相关注意模块((7))，结果没有提高，因此选择将其放在第6层。然后尝试将相关注意模块放在更多的层中，而在更浅的多层((8)-(12))中的相关注意模块并没有进一步提高分割性能。解释说，由于每一层代表输入的不同抽象特征表示，更深层次提供更复杂和抽象的特征，相关注意模块可以引导最抽象的特征分布来满足相关关系，从而提高分割结果。

表5:网络不同层相关注意模块分割精度对比。ET、WT、TC分别表示增强肿瘤、全肿瘤和肿瘤核心。Avg表示三个肿瘤区域的平均结果，粗体表示最佳结果。

总结：
在本文中，提出了一种三注意融合引导的三维多模态脑肿瘤分割网络，该网络结构在脑胶质瘤患者的多模态MR图像中展示了其分割性能。为了利用来自不同模态的互补信息，使用基于多编码器的网络来学习模态特定的特征表示。考虑到MR模式之间的相关性有助于分割，提出了一种三注意融合块，该融合块由模式注意模块、空间注意模块和相关注意模块组成。模态注意模块用于区分每个模态的贡献，空间注意模块用于提取更多有用的空间信息以提高分割结果。由于模式之间存在很强的相关性，因此使用相关性描述块来表示多模式相关性，在相关注意模块中引入基于相关性的约束，引导网络学习最相关的特征表示，以提高分割效果。总之，提出的三注意融合策略利用了模式间的互补信息，鼓励网络学习更多有用的特征表示，以提高分割结果。提出的网络结构的优点
（1）基于两个度量（Dice分数和Hausdorff距离）的实验结果表明，提出的方法对于脑肿瘤及其子区域甚至小区域的分割都给出了准确的结果。
（2）该体系结构是一种端到端的深度学习方法，完全自动化，无需任何用户干预。
（3）提出的相关注意模块可以帮助分割网络学习相关的特征表示，从而获得非常有竞争力的结果。
（4）如果多源图像之间存在相关性，则所提出的相关注意模块可以推广到其他多源图像处理问题。
然而，工作有一些局限性，可以启发未来的发展方向：
（1）这项工作仅在多模态MR脑肿瘤图像上得到验证，未来，将在不同的多模态图像数据集中验证方法。
（2）所提出的相关描述块是一个简单的两层网络，打算设计一个更复杂、更高效的相关描述块来描述多模态之间的相关性。在未来测试其他f发散函数，如海林格距离，将是一件有趣的事情。
（3）考虑其他相关表达式函数以提高分割性能将是一个有趣的问题。
（4）将该相关模块应用于脑肿瘤分割，计划将其应用于合成附加图像，以应对有限的医学图像数据集或处理缺失模态分割问题。

[深度学习论文笔记]A Tri-attention Fusion Guided Multi-modal Segmentation Network

相关推荐