第 1 章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.2.1 基于 Transformer 模型的医学影像分割现状 2
1.2.2基于注意力机制的医学影像分割现状 5
1.3 文章结构安排 6
第 2 章 Transformer 网络模型及注意力机制相关理论基础 9
2.1Transformer 网络模型结构 9
2.1.1传统 Transformer 网络模型 9
2.1.2SETR 网络模型 13
2.2 注意力机制算法 15
2.2.1非局部神经网络 15
2.2.2Attention U-Net 模型 17
2.2.3压缩激励机制模块 19
第 3 章 基于 Transformer 及多重注意力机制的网络模型 22
3.1 整体网络结构框架 22
3.2 编码器主要网络结构 23
3.2.1 自注意力机制 23
3.2.2 位置敏感型轴向注意力机制 26
3.2.3 门控轴向注意力机制 27
3.3 解码器主要网络结构 28
3.3.1 空间注意力机制模型 28
3.3.2 通道注意力机制模块 29
3.3.3 尺度注意力机制模块 30
3.4 网络模型的局部-全局训练策略 31
第 4 章 医学影像分割实验及其计算结果分析 33
4.1 实验计算平台及参数 33
4.2分割评价指标 33
4.3 医学影像分割的损失函数 36
4.4皮肤黑色素瘤分割实验及其结果分析 37
4.4.1 皮肤黑色素瘤分割数据集 ISIC2018 37
4.4.2 皮肤黑色素瘤分割的实验结果分析 38
4.5全景 X 射线牙齿分割实验及其结果分析 42
4.5.1全景X射线牙齿分割数据集 42
4.5.2全景X射线牙齿分割的实验结果分析 44
4.6 本章小结 48
第5章 总结与展望 50
5.1总结 50
5.2展望 51
参考文献 53
第1 章 绪论
1.1研究背景及意义
医学影像可以让医生通过影像了解病人的人体组织结构与各器官的功能信 息,从而得到更加全面的诊断结果。并且适时介入,制定更加合理的治疗方案。 然而,在医生对影像数据进行分析的过程中,常常带有一定的主观性,并且更加 依赖于过往经验,当数据量较大时也会在一定程度上增加医生的工作负担。因此, 找到一种可以辅助医生进行批量影像数据分析的方法是非常有必要的。
医学影像的分割是医学影像处理和分析过程中的关键步骤,它可以通过自动 或半自动的方式对病灶区域进行分割,其为目标分离、特征提取和参数的定量测 量提供了前提条件。而后医生便可以将所提取到的病变区域的相关特征作为病理 研究的依据,并做出更加准确的诊断。
随着深度学习的发展,其已经被应用于自然语言处理[1],计算机视觉[2]等方 向,在医学影像处理领域也有着非常多的应用[3,4]。其中,最具代表性的模型包括 循环神经网络(Recurrent Neural Network, RNN)[5],卷积神经网络(Convolutional Neural Network, CNN严,以及最近较为流行的Transformer模型[8-10],它们在数据 处理方面都有着各自的优缺点。
RNN 最先应用于自然语言处理领域, RNN 本身的循环结构,使得它天生具 备分析位置信息的能力,同时也可以对不定长度的序列进行处理。但同时,随着 其他模型的不断发展, RNN 的缺点也被不断放大。首先,是它的短期记忆问题, 在进行反向传播的过程中,模型通过各个时刻的隐藏层输出来调整参数。如果输 入的序列过长,梯度更新过程中的衰减较大,便会出现梯度消失的问题,此时模 型对于相隔较远的序列信息便无法学习到准确的结果。其次,由于RNN的输出 结果往往有赖于上一时刻的模型输出和当前时刻的模型输入,因而无法实现并行 计算。
在计算机视觉领域更加普遍的是CNN模型,比如在医学影像分割领域常用 的U-Net[11]。CNN主要由卷积层,池化层和全连接层三个部分组成。首先,CNN 具有局部感受野,由于卷积层通过移动卷积核的方式遍历整张图片,因而其感受 野是局部的,每一个神经元都只需要对局部信息进行感受,最终在更高的层次上 将这些神经元感受到的局部信息进综合,进而取得全局信息,这样能够有效减少 参数的数量。其次,CNN能够实现权值共享。权值共享是指使用相同的卷积核 对图像进行遍历,所以能够有效识别图像中不同位置的相同特征,这使得 CNN 在小范围内具有很好的平移性。这两大特点决定了 CNN与其他神经网络相比有 着更少的训练参数,且网络结构简单,能同时进行分割分类等任务。
尽管CNN存在以上优势,但与此同时也暴露出它的缺点,实验表明通过卷 积核遍历图像的方式提取特征,实际得到的感受野不能达到理论上覆盖全图的效 果,这会对模型使用上下文进行特征捕获造成困难。虽然不断堆叠更深层的卷积 可以解决这一问题,但这种方式会使计算量急剧增加,从而丧失CNN本身的优 势,在这种情况下, Transformer 应运而生。
《Attention is All You Need》[12]中Transformer模型被首次提出并迅速应用于 各大领域,从一开始仅用于机器翻译,到后来逐渐应用于自然语言处理和计算机 视觉领域,其相比于传统的RNN和CNN模型,不但具有全局特性还能够实现 并行计算。其中全局特性主要解决了 CNN在遍历图像的过程中难以有效捕获全 局信息的问题,并且多头注意力机制可以将全局信息映射到多个空间,增强模型 的表达能力。同时由于Transformer模型的计算结果无需依赖上一阶段的模型输 出,所以很好的解决了 RNN无法实现并行计算的问题。然而由于图片和视频所包 含的信息量较大,在使用 Transformer 模型时依然存在很大的计算开销。
综上所述,本文中选择将Transformer模型作为特征提取器,再结合CNN等 模型的优势去解决在医学影像分割过程中遇到的问题。
1.2国内外研究现状
1.2.1基于 Transformer 模型的医学影像分割现状
Transformer 模型是一种主要基于自注意力机制的网络,最初被应用于自然 语言处理领域,并且获得显著效果,如:Vaswani等人[12]首次提出一种用于英语 成分分解和机器翻译的模型,该模型是仅基于注意力机制实现的。而后研究人员 将其逐步扩展至计算机视觉领域,并主要应用于图像的分类分割和目标检测领 域。2020年5月Carion等人[13]提出DETR,首次将Transformer模型应用于目标 检测领域。该模型的思想是先利用 CNN 进行特征提取并缩减尺寸,再将数据输 入 Transformer 编解码结构,不同于传统目标检测对预定义的密集先验框进行类 别的分类和边框系数的回归, DETR 将目标检测视为一个集合预测问题,该集合 实际上就是一个可学习的位置编码,没有非极大值抑制等后处理步骤,也没有对 于先验框等先验知识的约束, DETR 通过端到端的方式实现目标检测,大大简化 了流程,不但在COCO数据集上的效果与Faster R-CNN相当,而且很容易迁移到 全景分割等其他任务中。
2020年10月Dosovitskiy等人[14]提出ViT,虽然该模型不是Transformer在计 算机视觉领域的首次应用,但是由于其模型简单,可扩展性强而成为Transformer 在计算机视觉领域应用的里程牌。类似于传统的Transformer模型,ViT在输入 模型前会先将图片进行划分,再将得到的图像块进行固定长度的投影,最终将投 影后的向量输入模型,此时便可以将这一系列的向量视为自然语言处理中的词向 量,再进行其他操作。此外,由于模型的最终目的是对图片进行分类,所以在输 入序列中包含一个特殊的标记化图像块,该标记化图像块对应的输出就代表预测 的类别。在ImageNet数据集上ViT模型取得了可观的结果,但其缺点在于只有 预先在大规模数据集上进行训练, ViT 模型才能取得预期的结果,因而不适用于 规模较小的数据集。2021年3月Zheng[15]等人提出了 SETR,以纯Transformer 结构的编码器代替CNN编码器,改变了现有的语义分割模型构架。
随着Transformer在计算机视觉领域研究的不断深入,基于Transformer的模 型已经被研究出多种变体用于辅助影像科医生进行临床诊断、病变分割等问题。
Olivier等人[16]提出U-Transformer网络,该网络在U-Net的基础上结合自注意 力机制和交叉注意力机制的特点,其中自注意力机制用于建立编码器部分的全局 交互,而交叉注意力机制被添加到跳跃连接之中,通过过滤非语义特征来恢复解 码器的空间信息,这种改进方式可以克服U-Net无法有效建立远距离依赖的缺 点。Zhang等人[17]提出一种以并行方式结合CNN和Transformer的两分支架构 TransFuse,同时使用BiFusion模块对各分支的多级特征进行融合,通过这种方 式可以提高模型对全局上下文的信息捕获能力并且不会影响低分辨率对于细节 信息的定位能力。
受 Swin Transformer"」的启发,Cao 等人[19]构造了一个以 Swin Transformer 模 块为基本构架的带跳跃连接的“U型”编解码体系结构Swin-Unet。该模型编码 部分可以实现从局部到全局的自注意力计算,解码部分则将全局特征上采样到输 入分辨率,进行相应的像素级分割预测。同时,该模型设计了一种补丁扩展层, 可以在不使用卷积和插值运算的情况下实现上采样。该模型在二维医学影像分割 方面显示出其强大的功能。Lin等人[20]提出DS-TransUNet,该模型采用基于Swin Transformer的双尺度编码网络,即在编码器部分使用两个独立分支,大尺度分 支可以用于捕获粗粒度特征,而小尺度分支则用于捕获细粒度特征。此外,还提 出一种新的Transformer交互融合模块,用于在获得双分支编码器的输出特征后, 将多尺度特征进行融合。Wang等人[21]为了使模型能够获取更丰富的上下文信息, 结合U-Net和Vision Transformer结构,提出一种新的混合Transformer模块,可 以同时学习样本内和样本间的关系。该模型设计了局部-全局高斯权重自注意力 机制模块来计算自注意力,然后会通过外部注意力机制模块学习样本间关系,该 模型首先将输入图像分块输入局部自注意力机制模块,利用传统的自注意力机制 获取局部上下文信息,然后将所有图像块学习到的信息通过轻量级动态卷积融合 为一个特征,送入全局自注意力机制模块。随后又使用高斯轴向注意力来对全局 注意力进行学习,即学习当前位置图像块和较远位置图像块之间的注意力关系。 最后,还引入外注意块来学习样本之间的注意力。
除此之外,研究人员在三维医学影像分割方面也取得了不少突破。Xie等人 [22]提出CoTr,首次将Transformer模型应用于三维医学图像分割问题中,用于解决 三维多器官分割任务,同时针对利用自注意力机制对多尺度和高分辨率的特征图 进行操作时计算复杂度过高的问题,采用可变形的自注意力机制,使得模型仅针 对关键点进行自注意力操作,从而大大降低计算开销。Wang等人[23]将3D CNN 和Transformer结合,提出一个新的基于编解码的网络结构TransBTS,用于进行 MRI的脑部肿瘤分割,TransBTS的编码器会首先通过3D CNN对空间特征进行 提取,从而对局部的上下文信息进行捕获。同时,会将改良后的标记化图像块送 入Transformer,从而对全局特征进行建模。在解码部分,该模型使用渐进式上 采样并同时结合 Transformer 的嵌入功能来对分割结果进行详细的预测。 Ali 等人 [24]受 Transformer 在自然语言处理领域成功进行远程序列学习的启发,将这种远 程的序列预测问题迁移到三维医学影像分割的任务中,并提出一种名为UNETR 的新型架构。该模型的编码器学习输入部分主要采用纯Transformer结构,可实 现对全局多尺度信息的有效捕获。同时借鉴3D U-Net的“U型”网络设计,通 过跳跃连接将经过 Transformer 特征提取过的编解码部分直接相连,并计算最终 的分割结果。 Wu 等人[25]提出一种可以分割三维医学影像数据的扩展型 Transformer模型D-Former,该模型主要通过交替式自我注意的方式对成对的图 像块进行捕获,而这个交替过程是在局部和全局范围内进行的。受扩张型卷积核 的启发,该模型以扩张型方式进行全局自注意,这种方式可以在较低计算成本的 同时扩大感受野,而无需增加所需的图像块数量。
1.2.2基于注意力机制的医学影像分割现状
医学影像的分割目标在大小、形状和纹理上往往会呈现出类内和类间多样 性,利用CNN对目标进行分割时,由于CNN具有局部感受野,会生成局部特 征表示,这会导致与具有相同标签的像素相对应的特征之间存在潜在差异,从而 影响分割性能,注意力机制的研究则可以有效解决这一问题。
Zhang 等人[26]提出一种边缘注意引导网络(Edge-aTtention Guidance Network, ET-Net),该网络以Resnet-50[27]作为编码结构,分别使用四种编码器以适应不同 特征图的分辨率,并提出边缘引导模块学习编码层中的边缘注意表示。随后将提 取到的特征输入由三个级联的解码块组成的解码器中,并使用加权特征融合模块 进行融合,这种方式可以使ET-Net模型的表示能力有所提升。Nie等人[28]提出一 种基于注意力机制的半监督深度网络(Attention based Semi-supervised Deep Networks, ASDNet),以端到端的方式完成分割任务。该模型整体为使用一个全卷 积置信网络对分割模型进行对抗式训练,该半监督策略可以通过基于区域注意的 方式对没有经过标记的数据进行训练。Wang等人[29]提出一种体积注意模块,该 模块的主要使用场景是三维的医学影像分割及检测,该模块使得2.5D网络能够 沿Z轴方向利用上下文信息,并且可以针对医学影像数据量偏小的情况,使用 预先训练好的二维检测模型。
针对医学影像数据集中存在的一些难以分割的病例,Nie等人閩提出一个具 有置信度学习的困难感知注意力网络,进行端到端的分割任务。首先,该网络使 用增强版U-Net,在原始U-Net的基础上增加了残差卷积块和空洞卷积,在跳跃 连接中使用转换模块,并将通道注意模块插入到跳跃连接融合编解码特征的过程 中。其次,提出一个全卷积对抗网络进行置信度学习,该置信网络可以同时进行 对抗学习和置信学习,即在提供对抗性学习来训练分类网络的同时得到正确分割 每个局部区域的置信度,通过降低对抗性学习的优先级,避免生成器和判别器之 间的训练不平衡。最后,提出一个难度感知注意机制,通过这种方式可以正确处 理数据中的困难样本和区域。实验证明该网络可以实现最先进的分割精度,同时 每个单独组件都有利于模型整体性能的改进。Zhang等人[31]提出一种尺度注意深 度学习网络(Scale-Attention Deep Learning Network, SA-Net),该模型通过在网络 中添加一个尺度注意模块来增加网络对于不同尺度特征的提取能力,改进后的网 络可以有效学习多尺度的特征,更好的实现对不同医学影像数据的分割。 Chen 等人[32]提出一种新型半监督的医学影像分割方法,同时优化监督分割任务和无监 督重建任务。具体来讲,除了正常用于分割的解码器之外,还额外构建一个解码 器来专门实现无监督重建任务,该模型也可以视为一个自监督的变分自编码模型 (Variational AutoEncoder, VAE)[33],而无监督重建分支会分别重建原始图像的前景 与背景,该分支中注意力机制的作用是让预测得到的软分割结果不直接作为伪标 签,而是和输入图像进行像素相乘,通过这种方式可以将图像的粗前景与粗背景 提取出来,且该背景必须与重建的前景和背景一致,从而实现一致性约束来进行 半监督学习。该模型在未标记和少量标记图像上进行训练的结果均优于用相同数 量的图像训练的有监督CNN和在完全未标记的数据上训练的CNN。Li等人[34] 提出基于注意力机制的嵌套型U-Net (Attention-based nested U-Net, ANU-Net),该 模型能够根据不同任务的相关性有选择的将不同层次上提取到的特性进行合并, 这一过程是通过将注意力机制引入嵌套卷积实现的。Cheng等人[35]提出一种模块 化群体关注块,可以在通道和空间两个独立维度上捕捉医学影像中的特征依赖 性。该模型以ResNet作为基本骨干网络堆叠这些群体关注块,并得到ResNet 的新变体ResGANet。该模型在参数量上比原始ResNet少1.51-3.47倍,并可以 直接用于下游的医学影像分割任务。Xia等人[36]针对编解码过程中会产生细节丢 失的问题提出一种多尺度上下文注意网络(Multi-scale Context-attention Network, MC-Net),该模型通过引入多尺度和上下文注意力机制模块来提取目标周围的局 部和全局语义信息,并根据像素是否属于目标进行加权,从而提高分割精度。
1.3文章结构安排
本文的主要章节以及结构内容安排如下:
第一章是绪论部分。首先介绍了 RNN、CNN和Transformer这几种常用的 深度学习模型及其优缺点,从而引出本文算法,在特征提取部分本文使用改进后 的Transformer模型,解码部分在CNN的基础上,结合三种不同的注意力机制, 对模型进行构建。其次,分别介绍了 Transformer 模型和注意力机制在国内外医 学影像分割领域的研究现状。最后简单总结了本文的主要研究工作。
第二章是本文算法研究的理论基础部分。为了更好的理解本文所使用到的 Transformer模型及注意力机制,在第二章中首先着重介绍传统Transformer模型 的几个主要组成部分,并对其相应的内部原理进行介绍。其次,本文介绍了被首 次用于影像分割领域的Transformer模型SETR,这也是本文所提出模型的灵感 源泉。最后,本文介绍了几种比较典型的注意力机制算法,包括非局部神经网络、 Attention U-Net模型和压缩激励模块,在2.2节中对这几种模型的设计思路与运 算过程都进行了较为详细的讲解,也为第三章中空间、通道和尺度三种注意力机 制的引入做了铺垫。
第三章为本文重点的实验方案设计。在本章中首先介绍了网络的整体架构。 其次分别介绍了编解码部分的主要模块,编码器部分主要介绍了改进后的门控轴 向注意力机制模块,解码器部分则介绍了引入的三重注意力机制模块。最后在模 型中引入了局部-全局训练策略,进一步提升模型分割性能。
第四章是具体的实验结果与分析。 4.1 节介绍实验所需的计算平台及参数。 4.2节介绍两个分割任务所需要使用到的评价指标。 4.3 节根据两个数据集各自的 特点选择了较为适合的损失函数。该损失函数可以通过反向传播过程对参数进行 进一步优化。 4.4节和 4.5 节是具体的实验部分。首先分别介绍了皮肤黑色素瘤 分割数据集ISIC2018和全景X射线牙齿分割数据集,针对两个数据集的不同特 点提出相应的预处理和数据增强策略。其次,对两个实验的实验结果进行分析与 总结,通过皮肤黑色素瘤分割实验,证实了将Transformer模型与注意力机制相 结合的模型架构是有效的,并通过对比实验,验证不同数量的Transformer层和 不同输入图像块的大小对于实验结果的影响。最后,通过全景X射线牙齿分割 实验进一步验证了本文所提模型CA-GAT的有效性,并通过不同模块间的对比 实验验证了单独引入空间、通道和尺度注意力机制时的效果。
第五章是总结与展望部分。总结文中提到的几项主要工作内容,并进一步说 明本文所提出的将改进后的Transformer模型和多重注意力机制相结合的方法在 未来的医学影像分割领域拥有广阔的应用前景。
第 2 章 Transformer 网络模型及注意力机制相关理论基础
2.1Transformer 网络模型结构
2.1.1传统 Transformer 网络模型
自从Transformer模型在《Attention is All You Need》[12]中被提出以来迅速爆 红于自然语言处理领域,并在机器翻译等任务上表现超过RNN和CNN,随后也被 逐渐广泛应用于计算机视觉领域。Transformer模型在编解码结构和注意力机制 的共同作用下,能够在降低计算复杂度的同时依然保持良好的训练效果。此外, 与 RNN 和 CNN 相比,其能够实现并行计算并且拥有全局特性。接下来会以机 器翻译为例对Transformer模型的原理进行讲解,Transformer的具体结构如图2.1 所示。
图 2.1 Transformer 模型结构图 如图 2.2 所示是 Transformer 模型的输入部分。
图2.2 Transformer模型输入
单纯经过自注意力计算的模型,没有办法有效利用单词间的位置信息,因此 需要在模型的输入端引入位置编码,将词汇位置不同可能会产生的不同语信息加 入到词嵌入张量中,以弥补位置信息的缺失,让模型能够感知到相对位置变化。 位置编码的具体计算公式如式(2.1)和式(2.2)所示,其中有两个主要参数,一个是 当前单词的位置pos ;另一个是嵌入层的当前维度2i或2i+1。
PE( pos,2i) = sin — (2.1)
100002i/dmodel
PE(pos,2i +1) = cos p°^7d— (2.2)
100002i/dmodel
其中,d如個代表模型中的向量维度,原文中设置为512。
如图2.3所示为Transformer模型的编码器部分,其由N个编码器堆叠而来, 在原文中N=6,具体组成部分包括多头自注意力机制、前馈神经网络、批标准化 层(Batch Normalization, BN)和残差连接。
图 2.3 Transformer 模型编码器
解码器部分则如图 2.4 所示,解码器用于对输入进行指定的特征提取,其同 样由N个解码器层堆叠而成。Transformer模型的解码器部分结构与编码器类似, 但是仍存在以下几点区别:
1.对于第一个多头自注意力机制,由于第7+/个单词翻译前需先完成第i个单 词的翻译。为了避免第i+/个单词后的信息为第i个单词所了解,需要采用 遮扌当(Masked)操作。
2.第二个多头自注意力机制层Q、K和V的来源与其他多头自注意力机制层存 在着差异,基于编码器的编码信息矩阵C可以实现对K和V矩阵的计算, 而 Q 则不同,其计算主要用到上一个解码器的输出。
解码器的作用是根据编码器的当前结果以及上一次预测的结果来对下一次 可能出现的值进行特征表示。
图 2.5 表示了 Transformer 模型的输出部分,包含线性层和 Softmax 层两部分, 其中线性层可以通过对上一步的线性变化得到指定维度的输出也就是有转换维 度的作用。而 Softmax 层则使最后一维向量中的数字缩放到 0-1 概率值域内,并 满足它们和为 1。
Output
Probabilities
图 2.5 Transformer 模型输出
2.1.2SETR 网络模型
在视觉 Transformer 介入语义分割之前,基于深度学习的语义分割是被以 U-Net为代表的CNN模型主导的。基于编解码结构的FCN和U-Net模型成为语 义分割领域最主流的模型范式。2021年3月Zheng等人在论文《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers》[15]中提出基于ViT语义分割的第一个代表模型SEgementation TRansformer (SETR),其以纯Transformer结构的编码器来代替CNN编码器,改 变了现有的语义分割模型架构。SETR模型整体结构如图2.6所示。
图2.6 SETR模型整体结构图
(a)输入预处理及特征提取;(b)渐进式上采样;(c)多层级特征聚合
SETR的整体思想是先将图像切分成固定大小的图像块,然后将经过位置嵌 入的图像块序列输入Transformer编码器。解码器部分则通过渐进式上采样将编 码器的输出恢复至原始二维图像分辨率,最后通过多尺度特征聚合获得最终的分 割图。
序列化的一个简易方法就是将图像展平为一个一维向量,但这样会使得序列 长度太长,影响计算复杂度,因此将每一个像素作为Transformer模型的输入是 不可取的。因此SETR采取对图像进行切块的方法,将输入序列长度限制在 HW/256,也就是将原图切分成16个图像块,随后将图像块经过线性嵌入投影到 一维空间,这样就将二维图像转换为一维序列,并且还通过加入位置嵌入的方式 对空间信息进行编码。一维序列会被送入 Transformer 编码器进行处理,每一个 Transformer层都会学习全局依赖关系,这样就解决了 CNN感受野有限的问题。
SETR编码器部分包含Le层的多层自注意力机制模块和多层感知器模块。注 意力计算公式如式(2.3)所示:
SA(Z-1) = Z_ + softmax(Z Wq(fWg ) )() (2.3)
d
此外,为了验证Transformer编码器提取特征的有效性,SETR设计了三种 解码器来产生最终分割图:
1.Naive upsampling-SETR Naive
原始上采样即使用双线性插值来恢复图像分辨率,然后通过交叉熵损失函数 来获得像素级别的分类结果。
2.Progressive UPsampling-PUP
仅通过一步上采样恢复图像分辨率也许会引入噪声,因此文中还设计了一种 渐进式上采样策略替换常规的卷积-上采样操作。为了减少引入的噪声,将上采 样倍数限制为二倍,因此需要执行四次上采样才能恢复到原始分辨率。
3.Multi-Level feature Aggregation-MLA
多尺度特征聚合类似特征金字塔模型,但是区别在于文中所使用的所有特征 图分辨率都是一样的,没有经过下采样操作。
最终模型会对特征图进行选择,有几层就有几流,对于每一流都会将特征维 度从二维变为三维,搭建一个三层的网络,三个卷积核的大小分别为1x1、3x3 和3x3,同时一层和三层的通道数会减半,第三层还会经过双线性插值将空间分 辨率提升四倍。为了增强各流之间的信息交互,SETR还在第一层之后引入自上 而下的多尺度特征聚合操作,会将特征进行逐元素相加,相加之后的特征还会经 过一个 3x3 的卷积,在第三层输出后,该模型会级联所有通道的输出然后恢复到 原始图像分辨率。
2.2注意力机制算法
2.2.1非局部神经网络
在深度学习中,利用一些特定方法来捕获远距离依赖是非常重要的。例如对 于语音、语言等顺序序列,往往会使用循环神经网络来建立长期依赖,而对于图 像数据而言,通常会选择堆叠一系列深度卷积形成较大感受野的方式捕获远距离 依赖。但是这两者都无法直接对远距离信息进行有效捕获,需要不断重复相应操 作,才能让数据逐步传播,从而有效捕获远距离依赖关系。然而这种重复性操作 计算效率低,优化困难,尤其是当消息需要在两个相隔较远的位置上进行来回传 递时,会使得建模远距离依赖变得困难。受非局部均值启发, Wang 等人[37]针对 CNN和RNN均无法有效捕获远距离依赖关系的问题提出一种非局部操作,其可 以作为深度神经网络中用于捕获随机依赖关系的简单组件,一个通用的非局部操 作可以用式(2.4)定义:
X = L 工 f (兀,xj) g(xj) D
C(x)新
其中,x代表输入特征。i代表输出特征所在的位置索引,其结果是通过枚 举j所有可能位置的索引并通过计算得到的。C旬代表归一化参数。y代表经过 响应因子C(x)标准化后的输出。f表达式用于计算i和j之间的相似度,i和j有 着越远的距离,就会具有相对更小的f值,这意味着j位置会相对更小的影响i。
针对输入信号在j位置特征值的计算可通过g表达式来实现。假如将g表达 式设置为1x1卷积,则相似性度量函数可以选择高斯函数和嵌入式高斯函数等, 下面将一一进行介绍。
最常用的相似性度量函数是高斯函数,如式(2.5)所示:
f(xi,xj)=exixj (2.5)
其中,xTxj代表点积相乘,归一化因子C(x)=工审f (x7,xj)。 还可以对高斯函数进行扩展,得到嵌入式高斯函数,如式(2.6)所示: fg Xj)=严汕心 (2.6)
其中,3(x,) = W0x,和蚁)=W^Xj代表嵌入部分,同样设置归一化因子为
C(x = (xi, xj)。
此外,还可以使用非局部操作的替代版本,比如直接使用点乘操作代表相似 性度量函数,如式(2.7)所示:
f (x, xj) = e(x)T 0( Xj) (2.7)
在这里采用嵌入式版本,以C(x)= N为归一化因子,其中N代表X中位置的 个数,使得梯度计算被极大简化。
同时,受Relation Networks[38]启发,在视觉推理过程中有一种串联形式的输 入,也就是说将两个嵌入式向量进行拼接,随后将拼接结果经过ReLU激活函数 和全连接层得到最终输出,具体过程见式(2.8):
f (X, xj = ReLU(wTf [&(xi),0(xj)]) (2.8)
其中,[•,•]代表将两个向量连接在一起,Wf是一个权值向量,它可以把连接 得到的向量向一个相应标量上进行投影,同时设置归一化因子C(x) = N。
这种非局部操作方式可以在不破坏原网络初始行为的情况下以残差形式插 入到任何预先训练过的模型中,具体公式如式(2.9)所示:
Zi = Wzyi + xi (2.9)
其中,Wz代表卷积操作,其输出通道数与X保持一致,改进后的非局部模 块可以作为一个组件插入到任何一个卷积神经网络中,这样可以使网络拥有更加 灵活的应用,其具体结构如图 2.7所示。
其中,®表示矩阵乘法,㊉表示按元素求和,We,W0,Wg均表示1X1X1卷积。 图中显示的是嵌入式高斯版本,其通道数为256,普通的高斯版本可以通过移除 。和0来表示,点积版本则可以通过用1/N的缩放替换Softmax操作来完成。
2.2.2Attention U-Net 模型
在医学影像分割领域中最经典的分割网络结构就是U-Net,其最大的特点是 “U型”结构和跳跃连接。与FCN[39]和Deeplab[40]等其他网络结构相比,U-Net 分别进行四次下采样和四次上采样,同时通过跳跃连接将同一阶段低级别与高级 别的语义特征相连,同时会对融合后的结果进行监督学习并将损失反向传播,通 过这种方式可以学习到更多特征信息并且也能够将不同尺度的信息进行融合。
然而,当患者的目标器官在形状和大小方面产生差异时,往往需要通过级联 显示外部组织和器官定位模块,才能够得到感兴趣区域(ROI)并对其进行相关预 测,但是这种方式会导致模型冗余,同时也会增大计算量和参数量,针对这一问 题,Schlemper等人[41]提出模型Attention U-Net,该模型通过在U-Net中嵌入注意 |'T(Attention Gate, AG)来对不同形状和大小的目标进行学习。
注意门有两大优势,其一是模型简单,可以即插即用,并且能够使得模型的 敏感度和精度有所提升。其二是它可以有选择性的学习到数据中与目标区域相关 的信息,同时抑制与目标无关的信息,从而避免在网络中引入额外的人为监督, 其具体模型结构如图2.8 所示。
图 2.8 Attention Gate 模块结构图
其中xl表示在encoder端s尺度上的低级特征,xh表示在decoder端由s+1 尺度经过上采样得到的高级特征,两者具有相同大小,两个输入同时经过 1x1 卷 积压缩输出通道并将结果相加。随后通过ReLU激活函数,得到的结果通过一个 1x1卷积和Sigmoid函数,再重采样得到ae[0,1]HW 最后将这个像素级系数与 O
xl 相乘得到单通路空间注意力的输出。
在 Attention U-Net 的编码器部分,每个尺度上都会对输入图像进行滤波和降 采样。注意门AG会通过在较粗尺度上进行上下文提取的方式来实现其特征选择 也其作用是在跳跃连接时过滤网络传播的特征。Attention U-Net的模型结构和 U-Net 十分相像,区别在于在跳跃连接时增加了 Attention Gate 模块,通过做注意 力机制的方式对跳跃连接所传播的特征进行过滤提取。Attention U-Net模型的结 构如图2.9 所示。
图2.9 Attention U-Net模型结构图
其中,g和X分别为跳跃连接的输出和下一层的输出,如图2.9,它们分别 通过通道数为Cx/4的卷积层并相加,随后经过ReLU激活、1 x 1 x 1卷积和Sigmoid 函数,生成一个权重信息,将这个权重与原始输入X相乘,得到对x1的注意力 激活。
2.2.3压缩激励机制模块
Hu 等人[42]通过对网络通道间关系进行研究,让网络的特征表示更具有代表 性,从而显式地建模网络演化特征通道间的依赖关系。为了达到这一目的, Hu 等人提出一种可以让网络重新校准所提取到特征的机制,名为压缩激励机制模 块,该模块可以通过对全局信息的学习来强调可信度高的特征,并且能够有效抑 制那些可信度较低的特征。该压缩激励机制模块主要包括压缩操作和激励操作两 个部分,如图 2.10 所示。
图中Fr的输入为X,且X G RHWC',输出为U,且UeRhwc。将Fr视为
一个简单的卷积操作,用式子V = [V1,v2,...,vC]表示,其中vC表示第C个卷积核,
输出用式U = ["i,u2,...,uC]表示,贝惰:
C'
"c = VC * X = £ vC * xs (2.10)
s=1
其中,*表示卷积,vC = [vC,vC,...,v; ],X = [x1,x2,...,xC],且uC g RhxW , vsC 是 一个二维空间卷积。
由于模型输出是全部通道求和的结果,因此其通道相关性既与局部空间相关 性密不可分,又隐含于vC之中。通过显式建模通道间依赖关系可以增强卷积的 特征学习能力,从而使得网络对于特征信息更加敏感,并且也能够在后续其他操 作中对所得到的特征信息进行更好的转换和利用。因此,模型需要在下一次输入 前,为网络提供更好的获取全局信息的途径,并且分为压缩和激励两步对特征信 息进行校准。
对于压缩部分的操作,针对卷积核感受野是局部的,无法对该区域以外的上 下文信息进行有效利用的问题,作者提出通过平均池化的方式,将全局空间信息 压缩至通道,从而进行信息的传递。具体的实现过程如式(2.11)所示:
1 H W
Zc = Fsq (uc) = - £工 UC(i, j) (2.11)
H - W i=1 j=1
因此,压缩操作即取得多个特征图U后,针对每个特征图依托于平均池化 操作来实现压缩,C个特征图在经过这一操作后也就呈现为1-1-C的实数数列。
随后,为了捕获通道间的依赖关系,模型通过执行激励操作有效利用压缩操 作后的聚合信息。为了能够学习到不同通道之间的非线性关系并且能够同时对多 个通道的特征进行加强,作者采用了带有Sigmoid激活的简单门控机制,如式 (2.12)所示:
S = Fex (z, W) = b( g (z, W)) = a(W2^(WZ) (2.12)
为了限制模型的复杂性并增加模型的通用性,作者参数化了选通机制,这一 过程是通过两个全连接层实现的,第一个全连接层是降维率为r的降维层,第二 个全连接层是一个维度升高层,再转到输出特征图的通道维度。通过使用激活重 新缩放特征图来获得模块的最终输出。得到5后,便可以通过式(2.13)得到压缩 激励机制模块的最终输出:
XC = Fscale(UC, 5C ) = 5CUC (2.13)
其中,X =[兀,X2,..., Xc ], u G RHXW , Fcaie是通道上的乘积。 该通道注意模块可移植性非常高,且在各种经典神经网络中表现出了不错的 效果。
第 3 章 基于 Transformer 及多重注意力机制的网络模型
3.1整体网络结构框架
基本的U-Net网络模型都包括上下采样和跳跃连接。其中,U-Net的编码器 部分主要用于提取浅层次图像特征,这一过程是通过卷积和下采样实现的;而解 码器部分则通过卷积和上采样提取更加深层次的语义信息;最终跳跃连接会将编 码器部分和解码器部分得到的特征图相结合,并根据结合后的结果进行预测分 割。本文以原始的 U-Net 作为骨干架构,在编码器部分引入改进的 Transformer 模型,同时在解码器部分引入了空间注意力机制、通道注意力机制和尺度注意力 机制,具体模型结构如图 3.1 所示。
图 3.1 基于 Transformer 模型和多重注意力机制的网络模型整体结构图
(a) CA-GAT模型整体结构图;(b)编码器结构;(c)解码器结构
在本文所提出的模型 CA-GAT 中,编码器不再利用卷积进行下采样,而是 由门控轴向 Transformer 层组成,具体结构见图 3.2,每一个 Transformer 层均包 含 BN 层和 ReLU 激活函数,同时还有前馈神经网络部分和残差连接,且主要模 块为沿宽度轴和高度轴方向的门控轴向注意力机制。其中,轴向注意力机制不再 从二维的角度对自注意力进行计算,而是分别从宽度轴和高度轴两个一维空间做
自注意力计算,在模拟原始自注意力机制的同时,可以有效降低计算复杂度。在 此基础上,引入门控机制[43],解决了在远程交互中学习到位置编码不准确的问题, 从而进一步提高分割精度。
受 Gu 等人[44]启发,在解码器部分引入空间注意力机制模块 (SA1-4) 增强图像 中的感兴趣区域,同时抑制无关背景区域;引入通道注意力机制模块(CA1-4)与 跳跃连接相辅相成,用于将低级特征中与高级特征更相关的部分赋予更高权重; 引入尺度注意力机制模块(LA)用于提取不同尺度的特征图,同时突出强调与目标 更加相关的尺度信息。解码器有四层,每一层都是由一个CA模块和两个卷积层 组成的,如图3.1(c)所示,这四层的输出通道数分别是128、64、32和16,且卷 积核大小相同,均是3x3。以第一层为例,解码器的输入由SA1校准的低级特征 和解码器的高级特征组成。所得到的输出被上采样并传送至SA2,同时生成高级 特征,作为第二层解码器输入的一部分。下面几节将对网络的编解码部分分别进 行更加详细的介绍。
3.2编码器主要网络结构
3.2.1自注意力机制
多头注意力机制是传统Transformer模型中必不可少的一部分,其在编码器 和解码器部分均有不止一次的应用,而多头注意力机制是由多个自注意力机制组 成的,因此本节首先介绍自注意力机制的内部结构,如图3.3所示。
图 3.3 自注意力机制内部结构图
在自注意力机制的计算过程中会用到查询(Query, Q)、键(Key, Q和值(Value, V)三个特征向量,假设用矩阵X表示自注意力机制的输入,则可以使用线性变阵 矩阵WQ,Wk,Wv计算得到Q、K和V,具体计算过程如图3.4所示,注意X、Q、 K和V的每一行都表示一个单词。
图3.4由输入X得到矩阵Q,K, V的计算过程
获取到矩阵Q、K和K后,通过以下公式即可实现对自注意力机制输出的计 算,详见式(3.1):
Attention(Q,K, V) = softmax(°二)V (3.1)
dk
由于在计算Softmax的过程中,如果Q乘K的转置结果过大,这时所得到 的梯度值就会很小,甚至产生梯度消失的情况,因此往往会采用除以 d 的平方根 的方式对分数值进行调整,式中的dk代表向量维度。
假设用1234代表句中的单词,则Softmax的作用是将向量值转化为概率形 式,经过Softmax可以分别得到单词1234对于其他单词的自注意力系数,具体 计算过程如图 3.5 所示。
1 2 3 4 1 2 3 4
1 Softmax 1
2 > 2
3 3 — z — —
4 4 —
图 3.5 Softmax 的计算过程
最后如图3.6所示,通过将经过Softmax得到的自注意力系数与矩阵V相乘 可以得到最终输出结果Z。
多头注意力机制是由多个自注意力机制组成的,通过将输入X投影到h个 不同的自注意力机制中,并将得到的h个输出Z进行拼接后传入一个Linear层, 则可以得到最终多头注意力机制的输出结果,其具体计算过程如式(3.2):
MultiHead (Q, K, V) = Concat (head、,..., headh)WO
(3.2)
式中包含参数矩阵WQ G Rdmd叫 Wf e Rdm^心和 WV G Rdm^叫,且
、
WO = Rhdvxdmodel,同时 head, = Attention (QWQ, KW「, VW「)。
多头注意力机制可以通过从多个维度对信息进行提取的方式,多元表达词 义,使得模型具有更出色的效果。通过多头注意力机制对图像进行处理的原理与 机器翻译类似,假设输入特征图为x G RC也奶,则每一个自注意力的输出
J G RJ田”W可以用式(3.3)表示:
HW
y,j =工工 softmax&jkhw )vhw (3.3)
h=1 w=1
其中q = WQx、k = W<x和v = WVx均是由输入x经过特征映射得到的,且特 征映射矩阵Wq、Wk和Wv均是可学习的参数。
3.2.2位置敏感型轴向注意力机制
与 CNN 不同,传统含有注意力机制的 Transformer 模型能够对整张特征图中 的全局信息进行捕获,但是其计算复杂程度也会随着特征图的增大而不断增加。 此外,不同于卷积层,自注意力机制在计算非局部上下文时不利用任何位置信息, 而这种位置信息在视觉模型中对于捕获对象结构往往是非常重要的。
Wang等人[45]通过向自注意力中添加局部约束和位置编码的方式解决了上述 问题,与Ramachandran等人[46]只对Q添加位置编码不同,Wang等人同时对K 和V也添加了相对位置编码,其作用是为了捕获与精确位置信息之间的远程交 互。然而,这种约束会牺牲全局连接,导致注意力的感受野无法超过具有相同卷 积核大小的深度卷积,同时需要引入额外的超参数对网络性能和复杂度进行均 衡,这无疑还是会增加计算的复杂度。因此,在此基础上引入轴向注意力机制, 如图 3.7。
图 3.7 轴向注意力机制结构图
如图所示将自注意力的计算过程分为两个阶段,则可以得到沿宽度轴上含有 位置编码的自注意力机制计算公式:
W
yj =工 softmax (qTkw + qTrW + kLrW )(vw + rW) (3.4)
w=1
其中,咯,rW,rW e RWxW分别代表Q、K和V对应的位置编码信息,式(3.4) 表示的是沿张量宽度轴施加的轴向注意力,在高度轴方向也可以使用类似公式施 加轴向注意,通过这种轴向注意力的计算引入全局信息,不但可以模拟和自注意 力相同的效果,可以同时有效学习上下文的交互信息,引入位置编码,并且可以 有效避免在自注意力计算过程中计算亲和度和计算复杂度过高的问题。
3.2.3门控轴向注意力机制
位置敏感型轴向注意力机制能够以良好的计算效率对非局部上下文信息进 行计算,将位置偏差编码到注意力机制中,并且能够在输入特征图中编码长期交 互。但是,引入位置敏感型轴向注意力机制的模型想要学习到准确位置偏差就必 须先在大规模数据集上进行预训练。然而医学影像数据集普遍样本数量较少,这 会导致模型不能进行有效的预训练,无法学习到准确的位置偏差,在相对位置编 码学习不够准确的情况下,将它们添加到各自的Q、K和V中,会导致网络性能 降低。
本文在网络中加入了一种门控机制,加入门控机制后的轴向注意力机制可以 学习到位置偏差在非局部上下文编码中产生的影响。门控轴向注意力机制沿宽度 轴上的计算公式如式(3.5)所示:
W
yi}=工 softmax (qTk + GQq:片 + GKkLrW )(Gv ivw + Gv 2 rW ) G,5)
w=1
其中,Gq,Gk,Gv 1,Gv2 GR均是可学习的参数,这些参数共同组成了门控注
意力机制,来控制学习到相对位置编码对非局部上下文的影响。具体来说,如果 一个相对位置编码被准确的学习到了,那么相比于没有被准确学习到的位置编 码,门控机制会赋予它们更高的权重。图 3.8显示了门控轴向注意力机制的内部 结构。
图 3.8 门控轴向注意力机制内部结构图
3.3解码器主要网络结构
3.3.1空间注意力机制模型
本文模型通过空间注意力机制模块 SA1-SA4 学习四种不同分辨率上的注意 图, SA1 的灵感来自非局部神经网络[38],通过使用非局部块捕获上下文交互的方 式获取全局信息,具体原理见 2.2.1节。
而由于非局部块在更高分辨率的特征图上需要更多内存消耗,因此模型扩展 了 AG来学习SA2-4中的注意系数。但是单一的AG可能导致空间注意图中出现 噪声,因此在SA2-4中使用双路径空间注意对网络中的参数进行学习,通过两 个AG增强对目标图像中感兴趣区域的注意,并减少注意图中的噪声,其结构如 图 3.9 所示。
图 3.9 双通路 AG 结构图
在双通路AG中,每一个AG均经过与单通路AG相同的计算方式,并将最 终的输出结果进行合并。假设用0代表通道连接,①°表示经过通道数为C的 1x1卷积后再经过一个BN层,则双通路AG的具体公式如式(3.6):
ysAs = ReLU[①c((.a)0(x‘ .0))] (3.6)
3.3.2通道注意力机制模块
在编解码网络结构中,编码器部分经由空间注意校准的低级特征和解码器部 分的高级特征对于目标而言通常具有不同的重要性,在实际使用过程中,可以利 用通道连接将两者结合起来。为了能更加突出相关特征通道,同时抑制不相关特 征通道,本文在网络中引入通道注意力机制CA,它是在压缩激励机制模块的基 础上,使用平均池化激发特征通道并加入最大池化来获得通道中的细节信息,具 体结构如图 3.10 所示。
图中输入x是由编码器中由SA校准的低级特征和解码器中的高级特征结合 在一起组成,将x同时进行平均池化和最大池化,得到Pavg(x)gRCx1x1以及 Pmax(x) g Rctt ,它们通过一个共享MLP并相加,相加后的结果经过Sigmoid函 数得到通道注意系数0G[O,l]C>d>d ,通道注意力的最终输出结果可以表示为:
ycA = x ・0+x (3.7)
3.3.3尺度注意力机制模块
通过U-Net可以得到不同尺度的特征图,然而不同尺度特征图与分割目标的 相关性也不尽相同,因此本文网络的末端引入尺度注意模块LA,目的就是希望 网络能够学习到每个尺度的图像特定权重,并且能够自适应的校准不同尺度特 征。LA模块是在CA的基础上做进一步延申,具体结构如图3.11所示。
首先网络会将解码器中不同尺度的特征映射通过双线性插值重采样到原始 图像大小,并通过四个1x1卷积将不同尺度的特征图压缩到一个混合特征图戸, 然后经过与CA相同的运算过程得到一个尺度注意系数,记为/g [0,1]4x1x1。将F•/ 输入到一个额外的空间注意力机制模块LA, LA*的输入部分先经过一个4输出 通道的3x3卷积,再经过ReLU函数,随后再经过一个1x1卷积,其输出通道数 同样为4,最后经由Sigmoid函数得到空间注意系数/g[0,1严化 将LA*模块 的输出记为F•yy ,整个LA模块的最终输出可以用式(3.8)表示:
3.4 网络模型的局部-全局训练策略
本文采用类似SETR的训练方法,首先将图像划分成一系列图像块,为每个 图像块提供位置嵌入,然后将其输入网络进行训练。虽然这种将图像分割成图像 块的方法可以添加位置信息,使Transformer模型能够像在自然语言处理那样处 理图像,但该方法没有利用网络学习各个图像块间像素的依赖性。为了提高网络 捕获全局信息的能力,在模型中引入局部-全局训练策略(Local-Global training strategy, LoGo),如图 3.12 所示。
局部-全局训练策略的具体方法是在网络中使用一个全局分支和一个局部分 支,将原始图像输入到全局分支中,同时将分割后的图像块输入到局部分支中。 具体来说,在全局分支中只使用两个门控轴向 Transformer 层,因为实验表明它 们足以捕获远距离依赖关系。在局部分支中,首先将具有原始大小 I 的图像分成 16 个 I/4xI/4 的图像块输入网络,其次根据图像块位置信息对得到的结果进行重 采样,得到局部分支的输出特征图。最后,将全局分支和局部分支的输出相加, 并通过 1x1 卷积得到最终的分割结果。通过这种训练方法,可以利用全局分支获 得全局的高级信息,同时利用局部分支获得更精细的细节信息。
第4 章 医学影像分割实验及其计算结果分析
4.1实验计算平台及参数
本文中涉及到的实验均使用 NVIDIA GeForce RTX 3090 GPU ,该显卡内存 为24GB,在Windows系统下使用PyTorch环境进行搭建,并将Python3.7作为 编程语言。实验参数方面,在皮肤黑色素瘤分割过程中,通过Adam优化器对网 络的参数进行调整,实验的批量处理大小设置为10,同时将初始学习率设置为 0.0008,按照余弦形式衰减,其权重衰减系数设置为10-5 ,并将动量设置为0.96, 实验的迭代次数为 300。
与黑色素瘤分割实验时设置的参数略有不同,在全景X射线牙齿分割的训 练过程中,批量处理大小被设置为2,并将初始学习率设置为0.005,其余参数 设置与黑色素瘤分割实验相同,实验迭代次数为200。
4.2分割评价指标
医学影像分割实验本质是将图像全部像素点进行前景区域和背景区域的划 分,因此在选择评价指标时,整张图像和像素点都要进行关注,比如Dice系数 可以用于整体评价模型预测结果与金标准间的相似性,而敏感度、特异度等指标 则可以从像素点的角度对模型进行评估,接下来将对实验中涉及到的几个指标进 行详细讲解。
首先定义混淆矩阵,用T和F代表预测是否准确;用P和N代表预测的是 阳性和阴性。以皮肤黑色素瘤分割为例,在实验过程中,可以将被预测为病变的 皮肤病变区域命名为真阳性,并用 TP 表示;未被预测为病变的病变区域被称为 假阴性,用FN表示;被预测为病变的非病变区域被称为假阳性,用FP表示; 被预测为非病变的非病变区域被称为真阴性,用TN表示。
准确率(Accuracy, ACC)代表被正确预测的患者数占所有患者数的比例,可以 用式(4.1)表示:
敏感度(Sensitivity, SE)用于表示模型能够正确识别病变区域的能力。在进行
皮肤病变分割时,一些病变区域由于颜色较浅或形状较小,很容易被错误预测为
背景区域,而敏感度的计算则可以表示出被正确预测病变像素占整张图像中真实
病变像素的比率,具体计算公式如式(4.2)所示:
在医学诊断过程中,如果所得到的敏感度较低,则会出现较多的假阴性患者, 这会延误患者的就诊,影响病程发展和愈后,甚至导致患者过早死亡。
特异度(Specificity, SP)可以表示模型对于数据中反例能否正确识别的能力。 特异度对于被错误预测为病变区域的像素部分予以更高关注度,因为它可以表示 在全部被预测为病变区域像素中被正确预测像素所占的比例,具体计算公式如
(4.3)所示:
交并比(Intersection over Union, IoU)是由模型预测值与标签的交集除以它们 之间的并集得到的。假设将分割网络输出概率图中病变的轮廓边界用L1表示, 真实标签中病变部分的轮廓区域用L2表示,则IoU值的计算公式可以用式(4.4) 表示:
IoU =
Dice系数可以用于计算预测结果与金标准之间重叠区域所占比例。假设用P
代表预测结果,用G代表金标准,则Dice系数可以用式(4.5)进行计算:
D ce =
当模型完全没有预测到正确结果时,Dice值为0,而当模型得到与标签完全 一致的预测结果时则Dice值为1,最终Dice值的范围在0-1之间。
上述评价指标均为在图像分割领域比较常用的指标,然而,它们忽略了对边 界性能的评价。由于本文所提出的网络对于边界信息较为敏感,因此最终选择豪 斯多夫距离(Hausdorff distance, HD)作为评价指标对模型的边界性能进行度量。 豪斯多夫距离可以用于衡量两个点集之间的相似程度,假设有两组点集分别为
A = {a0, a1,...}和B = {b0,b1,...},则它们之间的豪斯多夫距离可以用式(4.6)表示:
H (A, B) = max(h( A, B), h(B, A))
其中 h(A,B) = max{min|” - b|}} , h(B, A) = max{min||b - a|}},点集 A 和 B 间的
距离范式可以用|・||表示。其计算流程可以用图4.1表示。
豪斯多夫距离计算的具体流程可以用文字描述如下:
1.取A集合中的一点a0,计算a0到B集合中所有点的距离,保留最短距离d0 ;
2.遍历A集合中所有的点,图中一共有两个点a0和a,,计算出d0和d ;
3.比较所有距离{d0, dj,选出最长距离d ;
4.这个最长距离设为h,它可以代表从A到B的单向豪斯多夫距离,一般用h(A, B)表示;
5.对于以集合A中任意一点为圆心,,为半径的圆内一定会包含集合B中的点;
6.最后将集合 A 和 B 的角色对调,重新计算从集合 B 到集合 A 的单向豪斯多 夫距离h(B, A),并选择h(A, B)和h(B, A)两者中的最大值作为集合A和B间 的双向豪斯多夫距离。
4.3医学影像分割的损失函数
在设计基于复杂图像分割的深度学习构架过程中,对于损失函数的选择是至 关重要的,因为损失函数可以激发算法的学习过程,让模型可以在对数据集训练 过程中学习到更好的结果。
损失函数可以用来衡量模型得到的预测结果与真实标签值之间的匹配程度, 通常可以用L表示,如式(4.7)所示:
L= E(G,S) (4.7)
其中,G = gi和S = st分别代表真实标签和预测的分割图像。
基于图像的损失函数可以大致分为基于分布的损失函数、基于区域的损失函 数、基于边界的损失函数和基于复合的损失函数四个类别,在实验过程中可以根 据所用数据集的不同特点选择相应的损失函数。
Dice Loss适用于样本难以均衡的情形,在皮肤黑色素瘤数据集ISIC2018中, 由于数据在形状、大小和颜色方面有较为显著的差别,因此最终选择Dice Loss 作为皮肤黑色素瘤分割实验的损失函数,而Dice Loss又与Dice系数息息相关。
Dice 系数主要是可以对两个样本像素间的相似度进行度量,并且被广泛应 用于计算机视觉领域,如公式(4.8)所示:
Dc = =站J
上式中Dice的取值范围是[0,1],对于分割任务而言,X代表真实的黑色素
瘤分割结果,而Y代表的是预测到的黑色素瘤分割结果,最终的Dice Loss可以
而对于全景X射线牙齿分割数据集,由于该数据集不存在类别不均衡问题, 所涉及的分割问题是像素级二分类,仅需要对前景和背景进行区分,同时前景和 背景差异并不明显,且前景在整张图片中占比较大,因此在全景X射线牙齿分 割实验中二分类交叉熵损失函数(Binary Cross-Entropy Loss, BCE Loss)更为适 用。
在分类问题中,交叉熵由于其能够度量给定事件概率分布间的差异而被广泛 应用,而在使用BCE Loss的时候往往会与Softmax激活函数结合使用,原因在 于神经网络往往是以向量形式进行输出的,而交叉熵是用于描述两个概率之间的 分布差异。因此对于一个向量有必要实施“归一化”,即运用Softmax激活函数 使得其呈现为概率分布的形式,后续对于损失函数的计算主要采用了交叉熵损失 函数,可以用式(4.10)表示该损失函数公式:
'1 w-1 h-1 、
L p,p)=——-工工(p(x, y)log(p(x, y))) +(1 - p( xjMogQ - p( x』)) (4.10)
I wh x=0 y=0 丿
其中,w代表原图像的宽度,h代表原图像的高度,对于一个特定的点 (x,y), p(x,y)对应的是原图中的像素,p(x,y)则代表的是输出预测图所对应的 像素。
4.4皮肤黑色素瘤分割实验及其结果分析
4.4.1皮肤黑色素瘤分割数据集 ISIC2018
随着自动分析算法的出现,自动对皮肤病变边界进行准确分割,有助于皮肤 科医生对于皮肤病的早期诊断和筛查。而在皮肤病变分割过程中,边缘模糊、毛 发遮挡、圆形视野及诊断标记物的干扰都会对最终分割结果造成影响。因此,用 于分割的模型不但需要能够从全局角度提取特征并排除非病变区域,还需要对病 变区域的形状、颜色及尺度变化具有较强的鲁棒性。
皮肤黑色素瘤分割实验所使用的数据集为公开数据集,该数据集是国际皮肤 成像协作组织(International Skin Imaging Collaboration, ISIC)2018 数据集,所使用 的病变图像是用不同类型皮肤镜从所有解剖部位(不包括粘膜和指甲)获得的, 它们是来自几个不同机构皮肤癌筛查患者的历史样本,其中每张病灶图像中的原 发病灶个数均为一,而图像中的基准标记、继发性病变区域以及色素区域则可以 忽略不计。对应的标签则是由具有皮肤镜专业知识的执业皮肤科医生审查和策划 的。
该公开数据集仅训练集部分是公开可用的,共包含2594张病灶图片及相应 标签。在实验开始前,首先按照7:1:2的比例对皮肤黑色素瘤数据进行随机划分, 并分别得到训练集数据1816张、验证集数据260张及测试集数据518张。在数 据预处理阶段将数据大小统一调整为256x342,并根据平均值和标准差对图像进 行归一化。在数据增强阶段,将经过预处理的皮肤黑色素瘤数据进行随机裁剪, 使得图片大小转换为224x224,随后还会对该数据进行角度为(-n/4, n/4)的随机旋 转,以及水平翻转和垂直翻转。
4.4.2皮肤黑色素瘤分割的实验结果分析
本文首先设计了两组对比实验来选择效果最佳的模型结构。对于局部分支, 需要先将图片划分为一系列图像块,再输入模型中。因此,第一组对比实验比较 的是不同输入图像块大小对于模型结果的影响,实验结果如表4.1 所示。
表 4.1 局部分支不同输入大小对模型结果影响对比实验
Input patches SE(%) SP(%) IoU(%) Dice(%)
112 67.41 98.96 64.64 93.17
64 77.96 97.95 72.51 93.99
56 79.62 97.89 73.70 94.03
48 84.50 95.86 73.66 93.88
32 72.96 98.61 69.52 93.63
本次对比实验选择几种常见的输入大小,分别为112、64、56、48和 32。 从表 4.1 的结果可以看出,当切块数量过多或者过少时,分割精度都会有所下降。 具体而言,当局部分支的输入大小为112时,相当于将原图片进行四等分,再输 入局部分支,这种情况下,所划分的数量较少,不利于模型对于局部特征信息的 学习。而当划分的数量过多,比如所选择的输入大小为32的情况,这时相当于 先将原图像进行49等分,这时由于划分数量过多,在恢复原图过程中不可避免 会丢失掉一些细节处的特征信息,同样不利于网络的学习。只有当将图像划分为 适中的图像块时,网络才能够达到最佳的学习效果。根据表中结果,最终选择将 原始图像进行16等分,即输入图像块的大小为56,此时模型的综合效果最佳, Dice 系数可以达到 94.03%。
随后,本文又对全局分支部分不同的 Transformer 层做了对比,结果如表 4.2 所示。
表 4.2 全局分支不同 Transformer 层数对模型结果影响对比实验
Layer SE(%) SP(%) IoU(%) Dice(%)
Layer1 79.22 96.67 67.86 92.79
Layer2 79.62 97.89 73.70 94.03
Layer3 75.14 98.00 70.02 93.68
Layer4 83.29 96.75 73.67 93.99
Layer5 77.71 98.05 72.82 94.03
从表中结果可以看出,当全局分支中的 Transformer 层数太少时,比如在只 有一层Transformer层时,模型的Dice系数仅能达到92.79%,说明这时模型难 以建立足够远距离依赖关系。当将Transformer层数增加到两个及以上时,模型 均能够达到理想效果,但是过多数量的Transformer层会使网络结构冗余,并导 致计算量的增加,而实验结果表明模型分割精度并没有随着Transformer层数的 增加而得到进一步提升,因此模型中最终选择综合结果最佳的两层Transformer 层。
综上所述,最终网络结构在全局分支部分选择两层Transformer层,对于原 始图像大小为I的输入图像,局部分支部分使用I/4xI/4的输入大小,在本实验 中,具体的输入图像块大小为56。在接下来的实验中所使用的模型均为该结构。
在ISIC2018数据集上利用所提模型CA-GAT对皮肤黑色素瘤进行分割,并 与几个主流模型进行比较。此次黑色素瘤分割实验将敏感度(SE)、特异度(SP)、 交并比(IoU)和Dice系数作为衡量模型分割结果好坏的指标,对比结果直方图如 图 4.2所示。
100
U-Net CA-Net MedT CA-GAT without LoGo CA-GAT
图4.2 ISIC2018数据集中CA-GAT与主流模型对比结果柱状图
从图中可以看出,所提模型CA-GAT在Dice系数和IoU值上均优于其他几
个模型,表4.3 给出了具体的实验结果。
表4.3 ISIC2018数据集中CA-GAT与主流模型对比实验结果
Model SE(%) SP(%) IoU(%) Dice(%)
U-Net 71.57 93.75 57.70 87.74
CA-Net 82.81 96.30 72.26 93.57
MedT 65.29 98.73 62.01 92.83
CA-GAT without LoGo 68.96 98.57 65.12 92.54
CA-GAT 79.62 97.89 73.70 94.03
本文所提网络对于皮肤黑色素瘤的分割结果与U-Net相比,在敏感度(SE)、 特异度(SP)、交并比(IoU)和Dice系数这四个指标上均有很大程度的提升,分别 为&05%、4.14%、16.00%和6.29%。相比于第二名的模型CA-Net,其IoU值和 Dice系数分别高出了 1.44%和0.46%。虽然SE和SP没有达到最优水平,但该模 型仍然具有最好的整体性能。而与MedT相比,其IoU值和Dice系数则分别提 高了 11.69%和1.20%。对于几个在U-Net编解码结构中引入Transformer的网络, 包括MedT、CA-GAT without LoGo和CA-GAT,它们与基本骨干网络U-Net相比 在 SP 上均有较大提升,分别为 4.98%、4.82%和 4.14% 。而 CA-Net 和 CA-GAT 两个网络都是在 U-Net 的基础上引入了几种不同的注意力机制,因此在与 U-Net 相比在SE上有了较大提升,分别为11.24%和&05%。但对于CA-Net而言,该模 型仍然是在原来卷积结构上做的优化,而卷积核的尺寸有限,因而在对图像遍历 的过程中感受野会受到限制。 而本文所提出的模型,在编码器部分利用 Transformer 层替代了卷积层,其中的门控轴向 Transformer 层可以有效捕获远距 离依赖关系,对于图像全局特征有着更强的表示能力。因此,在多个分割指标的性 能上要优于CA-Net。通过实验结果可以看出,将Transformer模型与注意力机制 相结合的模型构架,可以通过增加感受野的方式对全局信息进行捕获,而丰富的 全局信息则可以使模型分割精度得到进一步提升。
此外,本文对黑色素瘤的分割结果进行了可视化,从可视化的结果可以看到, 对于形态正常且没有外部干扰的黑色素瘤而言,参与实验的几种模型均能够得到 与金标准比较相近的分割结果。因而,图 4.3 中选择几种特殊情况来观察各模型 在不同情况下的分割结果。
图4.3 ISIC2018数据集中CA-GAT与其他主流模型对比结果可视化
图4.3显示了在进行黑色素瘤分割过程中经常会遇到的几种困难现象,图(a) 表示存在毛发遮挡现象;图(b)中包含诊断标记的干扰,且病变边界模糊;图(c) 中存在与黑色素瘤非常相近的非病变区域;图(d)中则包含圆形视野,且病变边 界比较模糊。从图中可以观察到,与其他几个模型相比,本文所提模型CA-GAT 的分割结果与金标准最为相近。
具体来说,对于仅以卷积层作为主要结构的模型,如U-Net,此时毛发遮挡、 诊断标记、圆形视野及病变区域本身的颜色变化都会对分割结果产生不利影响。 当在模型中引入注意力机制后,如CA-Net,模型对于病变区域,特别是模糊边 界更为敏感。然而,由于受到卷积操作窗口尺寸的约束,模型仍然难以有效建模 对远距离信息的依赖性,无法排除非病变区域对分割结果的影响。例如图(c)所示 黑色素瘤附近的非病变区域、图(d)所示的圆形视野以及图(b)中部分的诊断标记, 由于它们在颜色和形状上与病变区域具有相似性,因此模型很容易将阴性像素部 分错误预测为阳性像素。而 Transformer 模型能够更好的编码长期依赖关系,让 模型能够更好的学习到上下文信息,从而提高模型排除外部干扰的能力。引入 Transformer结构的模型,如MedT,由于学习到了上下文信息,因而能够有效排 除诊断标记和非病变区域带来的干扰,但还是会受到圆形视野的影响。同时,仅 含有 Transformer 的模型对于病变区域的分割并不够准确,会错误的将一些阳性 像素预测为阴性像素,如图(c)所示。而CA-GAT由于同时引入了 Transformer模 型以及空间、通道和尺度三种注意力机制,可以更好的区分前景区域和背景区域, 从而能够对病变边界实现准确分割。同时,相比于没有引入LoGo策略的模型而 言, CA-GAT 能够获得更多的全局信息,建立良好的远距离依赖关系,从而更好 的排除非病变区域带来的干扰,因此,本文所提模型CA-GAT的分割结果与金 标准最为接近。
4.5全景X射线牙齿分割实验及其结果分析
4.5.1全景X射线牙齿分割数据集
为了进一步验证模型CA-GAT对于图像边缘信息的提取能力,本文在全景X 射线牙齿分割数据集[47]上对模型进行了评估。该数据集中所使用的X射线图像均 是从巴伊亚西南州立大学(UESB)诊断成像中心获得的。采集时所采用的设备来 自于Sirona牙科系统有限公司,包括ORTHOPHOS XG 5、XG 5 DS和Ceph,为 了防止用于研究的患者被识别到,所有数据均会隐藏患者信息并用特定编号进行 表示。
该数据集共包含1500张牙齿全景X射线图像,且均包含注释信息。根据所
采集图像的结构特征可以分为10个类别,如图4.4所示,它们在牙齿形状、牙
齿数量、修复体、种植体、器械、器具、多生牙(指超过32颗牙齿的患者)和 口颌大小方面均有显著的结构变化。所有捕获图像的原始像素均为2440x1292。
随后对图像进行切割,以排除掉一些由于拍摄产生的非相关信息(比如图像周围 的白色边界和部分脊柱)。最后对数据进行标注,所有数据均含有牙齿及颌面的 标签。
(i)(j)
图 4.4 十个不同类别的全景 X 射线牙齿图像
本文所用方法是在包含所有牙齿形态和结构条件的临床牙科全景X射线图 像数据集上进行训练的,从而使该方法能够有效地应用于临床实践。对于数据集 的设置,所有网络的输入大小都固定为448x448。此外,对于每个牙齿类别,均 按照8:1:1的比例划进行随机划分,分别得到训练集数据1200张、验证集数据150 张及测试集数据150张,并最终使用图像的随机旋转和翻转两种数据增强方法。
在数据预处理过程中,需要先行确定感兴趣区域(ROI)。具体而言,在对每 张图像中的牙齿进行标注后,也要手动对颌面进行标注,包括覆盖颌骨轮廓的整 个区域,这一过程是为了保留包含所有牙齿的区域。通过将表示原始全景X射 线图像的像素阵列元素的值乘以所标注的颌面区域对应的二进制矩阵,来确定最 终的感兴趣区域,其确定过程可以用图 4.5 表示。
ROI Image
图4.5 ROI区域的确定过程
4.5.2全景X射线牙齿分割的实验结果分析
本文将U-Net、CE-Net和CA-GAT作为分割模型用于该牙齿分割任务,为 了进行公平的比较,所有实验均使用相同参数设置,并在全景X射线牙齿分割 数据集上进行测试,表4.4为不同方法间的定量比较。
表4.4全景X射线牙齿数据集中CA-GAT与主流模型对比实验结果
Model ACC(%) SE(%) SP(%) Dice(%) IoU(%) HD(mm)
U-Net 96.11 90.77 97.13 91.30 85.43 7.769
CE-Net 97.12 93.92 98.54 92.36 87.04 5.749
CA-GAT without LoGo 97.05 91.98 97.21 92.25 86.51 6.105
CA-GAT 97.58 93.84 98.43 93.85 88.37 4.481
该实验在皮肤黑色素瘤分割实验的基础上,引入准确率(ACC)和豪斯多夫距 离(HD)两个评价指标,用于评估模型对于边界信息的敏感度。相比于U-Net和 CE-Net,所提模型CA-GAT在ACC上分别提升了 1.47%和0.46%,同时在HD 上分别下降了 3.288mm和1.268mm,这表明其在对于边缘信息的分割能力上有 明显提高。与几种先进模型相比较的柱状图如下图所示,由于豪斯多夫距离与其 他指标单位不同,因此将豪斯多夫距离的柱状图分开表示。
1.01
0.99
U-Net CE-Net CA-GAT without LoGo ■ CA-GAT
图4.6全景X射线牙齿数据集中CA-GAT与主流模型对比结果柱状图
图4.7 CA-GAT与主流模型豪斯多夫距离对比结果柱状图
从图中可以看出本文所提模型CA-GAT在整体性能上表现最佳。图4.8显示 了由上述几种方法得到的全景X射线牙齿分割结果图。
图4.8全景X射线牙齿数据集中CA-GAT与其他主流模型对比结果可视化
从可视化结果可以看出,U-Net和CE-Net对于对比度低的图像处理能力较 弱,也就是容易将颌骨错误的分类为牙齿,导致分割结果出现噪声。而所提模型 CA-GAT相比之下可以更准确的分割出牙齿区域,其对于牙齿的边界更加敏感, 同时分割的结果可以保留更加完整的牙齿结构,能够避免像其他几种模型在分割 过程中出现的过分割以及欠分割现象。从模型的角度解释,CA-GAT模型由于使 用了 LoGo 策略,可以从全局和局部的角度聚集像素级的上下文信息。同时,由 于该模型中引入了空间、通道和尺度三种注意力机制模块,因此能够更好的捕获 真实的牙齿区域与其他口腔结构间的细微差异,从而得到更接近于金标准的分割 结果。
为了比较模型中几种不同注意力机制的效果,将空间、通道和尺度三种基本 注意力机制进行组合,共得到六个组合模型,并与骨干网络U-Net以及所提网络 CA-GAT进行对比。其中,SA代表联合空间注意力机制,CA代表通道注意力机 制,而LA代表尺度注意力机制,具体结果如表4.5所示。
表4.5 CA-GAT与不同注意力机制组合对比实验结果
Model ACC(%) SE(%) SP(%) Dice(%) IoU(%) HD(mm)
Baseline 96.11 90.77 97.13 91.30 85.43 7.769
SA 97.13 92.41 98.02 93.00 87.09 5.162
LA 97.23 93.28 98.30 93.19 87.43 5.075
CA 97.37 92.98 98.17 93.57 88.08 4.731
SA+LA 97.39 93.81 98.42 93.59 88.09 4.801
CA+LA 97.44 94.15 98.53 93.67 88.25 4.695
SA+CA 97.47 93.86 98.44 93.72 88.32 4.549
SA+LA+CA 97.58 93.84 98.43 93.85 88.37 4.481
从表4.5中结果可以发现,与基线U-Net相比,单独加入SA、CA和LA后
模型性能均有所改善,ACC分别提升了 1.02%、1.26%和1.12%; HD分别下降
了 2.607mm、3.038mm和2.694mm。当结合两种注意力机制时性能会更优于单
一的注意力机制,而本文所提出的加入三重注意力机制的模型的分割效果最佳, 其 ACC 和 HD 均优于其他几种模型,分别达到了 97.58%和 4.481mm。
根据对实际数据集的观察可以发现,十类牙齿数据中,七类和八类对应标签 比其他类别的更加粗糙。图 4.9显示了几个不同类别的图像及对应标签,图中从 左到右分别代表第七类,第八类和第二类。第二类代表正常的数据及标签,从图 中可以明显的观察到,对于第七类和第八类的牙齿数据,本文提出的方法可以更 好的处理数据,且最终得到的分割结果比金标准更加合理。
图4.9牙科全景X射线图像标签质量问题对比图
4.6本章小结
本章节的重点是在皮肤黑色素瘤分割数据集ISIC2018和全景X射线牙齿分 割数据集上验证第三章所提出模型的有效性。首先介绍了本文实验所需的实验计 算平台以及两个实验所涉及的实验参数。其次,介绍了在两个实验中涉及到的分 割评价指标。最后,分别根据两个数据集的不同特点选择了适合的损失函数。其 中,皮肤黑色素瘤实验的损失函数选择Dice Loss,全景X射线牙齿分割实验的 损失函数选择了 BCELoss。
在皮肤黑色素瘤分割实验部分,首先利用两组对比实验确定了最佳模型结 构,即局部分支输入图像块大小为56,全局分支使用两层Transformer层,且后 续实验均为此结构。其次,将所提模型CA-GAT与几种主流模型进行对比。与 基线U-Net相比,CA-GAT的IoU值提高了 16.00%, Dice系数提高了 6.29%; 与第二名的CA-Net相比,其IoU值提高了 1.44%, Dice系数提高了 0.46%;与 模型MedT相比,CA-GAT的IoU值提高了 11.69%, Dice系数提高了 1.20%。 虽然CA-GAT的SE和SP没有达到最高水平,但整体上仍然具有最好的分割性 能。最后,实验通过可视化方式进一步验证了模型效果,针对在分割过程中遇到 的毛发遮挡、圆形视野、诊断标记及非病变区域干扰几种困难现象,CA-GAT均 能有效对目标区域进行分割。且实验表明,当在模型中加入注意力机制模块后, 模型对边界信息更为敏感;当在模型中引入Transformer层后,其全局视野可以 让模型有效排除非病变区域带来的干扰。
全景X射线牙齿分割实验则是为了进一步验证模型对于边界信息的提取能 力。首先将CA-GAT与主流模型U-Net和CE-Net进行对比,相比于基线U-Net, 其 ACC 提升了 1.47%, HD 则下降了 3.288mm;而与 CE-Net 相比,CA-GAT 的 ACC提升了 0.46%, HD下降了 1.268mm。从可视化结果也可以看出,CA-GAT 可以分割出更加清晰的牙齿边界,且能够使得牙齿结构更加完整。其次,本文通 过将SA、CA和LA组合的方式,对比了几种注意力机制各自的效果。实验表明, 当加入单个注意力机制时,模型与基线相比效果均有所提升。其中,SA的ACC 提高了 1.02%, HD 下降了 2.607mm ; CA 的 ACC 提高了 1.26%, HD 下降了 3.038mm; LA的ACC则提高了 1.12%, HD下降了 2.694mm。当三种注意力机 制同时被引入时,模型效果最佳,此时ACC可以达到97.58%, HD则为4.481mm。 最后,实验还指出了所使用的数据集中七类和八类的标签较为粗糙,本文所提模 型 CA-GAT 实际上能够得到比标签更加合理的分割结果。
第5 章 总结与展望
5.1总结
本文首先介绍了几种常用深度学习模型,包括RNN、CNN和最近较为流行 的Transformer模型。其中,RNN的循环结构使得它天生具备较强的位置分析能 力,但同时导致其无法进行并行计算。 CNN 因具有局部感受野并且能够进行权 值共享而在医学影像分割领域得到了非常广泛的应用。由于U-Net网络模型在叠 加多层卷积的情况下才能得到覆盖全图的感受野,而这一过程会急剧增加卷积运 算量,从而丧失了 CNN原本的优势。Transformer模型的出现则有效解决了 RNN 和 CNN 现存的问题,它不但可以实现并行计算,同时还拥有全局感受野。在使 用Transformer模型对图片和视频进行处理过程中,由于信息量较大仍会产生很 大计算开销。因此,本文将改进后Transformer模型与空间、通道和尺度三种注 意力机制相结合,提出一种新的网络架构CA-GAT,具体研究工作如下:
1.Transformer 模型具有全局视野,能够对远距离信息进行有效捕获,而针对传 统 Transformer 模型计算量大的问题,使用门控轴向注意力机制代替传统 Transformer模型中的自注意力机制。一方面,轴向注意力机制会模拟自注意 力机制的计算方式,但通过在宽度轴和高度轴上分别进行计算可以降低模型 的计算复杂度,并且不会降低模型的分割精度。另一方面,医学图像的数据 量普遍偏少,门控机制的引入可以让模型在无需大规模数据集进行预训练的 情况下也能得到准确的位置编码信息。
2.针对病变区域边缘模糊,且与非病变区域难以区分等问题,引入空间、通道 和尺度三种注意力机制。在进行医学影像分割过程中,使用空间注意力机制 可以使网络感知到目标物体的空间位置和大小,从而对目标进行准确分割; 此外,卷积神经网络会生成具有大量通道的特征图,使用通道注意力机制则 可以让网络对相关度高的通道给予更高关注度,抑制与分割目标无关的通道 信息;尺度注意力机制则可以让网络能够自适应地利用不同尺度的特征,在 处理尺度变化的物体时具有优势。通过三种注意力机制的引入可以有效增强 模型对于图像边缘的信息提取能力。
3.引入局部-全局训练策略,通过将原始图像输入全局分支,同时将分割后的 图像块输入局部分支的方式,将全局信息与局部信息相结合,让模型在有效 捕获全局上下文的同时也能够获取到更加细节的特征信息。
在皮肤黑色素瘤数据集和全景X射线牙齿分割数据集上训练和测试了所提 出的模型。通过在皮肤黑色素瘤数据集上进行大量实验表明,当局部分支的输入 图像块大小为 56,全局分支的 Transformer 层数为 2 时,模型效果最佳且不会造 成冗余。与当前的几种主流模型U-Net、CA-Net和MedT相比,CA-GAT的IoU 值分别提升了 16.00%、1.44%和11.69%; Dice系数则分别提升了 6.29%、0.46% 和1.20%,具有最佳整体性能。从可视化结果也可以看出,CA-GAT确实能够有 效解决在黑色素瘤分割中存在边缘模糊、难以区分某些病变区域与非病变区域、 模型容易受到毛发遮挡、诊断标记物等外部信息干扰等问题。全景X射线分割 实验在皮肤黑色素瘤实验的基础上引入了准确率(ACC)和豪斯多夫距离(HD)两 个评价指标,用于进一步评估模型对于信息边缘的提取能力。实验结果表明,所 提模型CA-GAT与U-Net和CE-Net相比,在ACC上分别上升了 1.47%和0.46%; 在HD上分别下降了 3.288mm和1.268mm,说明模型对于边缘信息的敏感度有 所提高。通过可视化结果也可以看出,本文模型分割得到的牙根边缘部分更加清 晰,且能够更好的排除颌骨等区域的干扰。
5.2展望
本文针对在医学影像分割过程中可能会遇到的类似边缘模糊等困难现象,提 出将改进后的 Transformer 模型与空间、通道和尺度三种注意力机制相结合的模 型构架,并取得了良好的分割效果,然而该工作还有不断改进的空间。
首先,医学影像数据获取难度较大,大多数实验都只能通过小样本的数据集 进行训练,然而现有的Transformer模型和注意力机制在训练样本较少的情况下 可能会无法达到最佳效果。因此,一方面可以增强与医生的合作交流,争取获得 更多的训练样本,除了本文所使用的皮肤镜和X射线数据以外,还可以进一步 探究该模型在MRI和超声图像等数据集上的分割性能,并提升模型的鲁棒性, 探究模型在临床应用中的潜力。另一方面,也可以在门控机制的基础上进行扩展, 找寻其他方法使模型可以在训练样本较少的情况下依然能够达到比较好的训练 效果。
其次,对于Transformer模型计算复杂度较高的问题,本文中使用轴向注意 力机制代替自注意力机制,在未来的研究工作中,可以探究更加轻量级的模型, 使Transformer能够更好的替代CNN完成对于医学影像的分割任务。
最后,目前提出的模型都是在二维层面进行构建的,而医学影像的分割任务 中,有很多数据都是三维层面的,随着硬件设备的不断提升,未来有望将所提出 的模型架构拓展到三维空间,以探寻将Transformer与注意力机制相结合的模型 在三维层面对于医学影像分割任务的潜力。
参考文献
[1]李霖,欧阳汝珊,林小慧,等.基于深度学习乳腺X线摄影联合自然语言处 理预测不同病理进展期乳腺导管原位癌预后研究[J].中华放射学杂志, 2022, 56(11): 1215-1222.
[2]卢宏涛,罗沐昆.基于深度学习的计算机视觉研究新进展[J].数据采集与处 理, 2022, 37(2): 247-278.
[3]汪华登.基于深度学习的医学图像分割方法研究[D].博士论文,桂林电子科 技大学, 2022.
[4]蒋希,袁奕萱,沈定刚,等.中国医学影像人工智能20年回顾和展望[J].中 国图象图形学报, 2022, 27(3): 655-671.
[5]侯雪淞.基于循环神经网络的智能医学问答系统的研究与实现[D].博士论 文,辽宁大学, 2022.
[6]李美育.基于生成对抗网络的医学影像分割和分类算法的研究[D].博士论 文,吉林大学, 2022.
[7]裴旳.医学影像分析中的注意力机制研究[D].硕士论文,吉林大学,2022.
[8]刘学思,聂瑞,张和华,等. 基于 Swin Transformer 网络的肺结核影像自动 分类效果评价[J].中国医疗设备,2022, 37(8):25-31+65.
[9]热娜古丽•艾合麦提尼亚孜,米吾尔依提•海拉提,王正业,等.基于Swin Transformer的肝囊型包虫病超声图分类研究[J].电子技术应用,2022, 48(11): 7-12+8.
[10]张春麟.基于Transformer的淋巴瘤超声影像描述生成模型与应用[D].博士 论文,东华大学, 2022.
[ 1 1 ] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Munich, Germany, Springer, 2015: 234-241.
[12]Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[J]. Advances in Neural Information Processing Systems (NIPS 2017), 2017, 30.
[13]Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[C]. European Conference on Computer Vision (ECCV), Glasgow, UK, Springer, 2020: 213-229.
[14]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16 x 16 Words: Transformers for Image Recognition at Scale[C]. International Conference on Learning Representations (ICLR), 2021.
[15]Zheng S, Lu J, Zhao H, et al. Rethinking Semantic Segmentation from a Sequence-To-Sequence Perspective with Transformers[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 6881-6890.
[16]Petit O, Thome N, Rambour C, et al. U-Net Transformer: Self and Cross Attention for Medical Image Segmentation[C]. Machine Learning in Medical Imaging (MLMI), Strasbourg, France, Springer, 2021: 267-276.
[17]Zhang Y, Liu H, Hu Q. TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted
Intervention (MICCAI), Strasbourg, France, Springer, 2021: 14-24.
[18]Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]. IEEE/CVF International Conference on Computer Vision(ICCV),2021: 10012-10022.
[19]C ao H, Wang Y, Chen J, et al. Swin-Unet: Unet-Like Pure Transformer for Medical Image Segmentation[C]. European Conference on Computer Vision (ECCV), TelAviv,Israel, Springer, 2022: 205-218.
[20]Lin A, Chen B, Xu J, et al. DS-TransUNet: Dual Swin Transformer U-Net for Medical Image Segmentation[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-15.
[21]Wang H, Xie S, Lin L, et al. Mixed Transformer U-Net for Medical Image Segmentation[C]. International Conference on Acoustics, Speech and Signal Processing(ICASSP),IEEE, 2022:2390-2394.
[22]Xie Y, Zhang J, Shen C, et al. CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Strasbourg, France, Springer, 2021: 171-180.
[23]Wang W, Chen C, Ding M, et al. TransBTS: Multimodal Brain Tumor Segmentation Using Transformer[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Strasbourg, France, Springer, 2021: 109-119.
[24]Hatamizadeh A, Tang Y, Nath V, et al. UNETR: Transformers for 3D Medical Image Segmentation[C]. IEEE/CVF Winter Conference on Applications of ComputerVision(WACV),2022:574-584.
[25]Wu Y, Liao K, Chen J, et al. D-Former: a U-shaped Dilated Transformer for 3D Medical Image Segmentation[J]. Neural Computing and Applications, 2023, 35(2): 1931-1944.
[26]Zhang Z, Fu H, Dai H, et al. ET-Net: A Generic Edge-aTtention Guidance Network for Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Shenzhen, China, Springer, 2019: 442-450.
[27]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016: 770-778.
[28]Nie D, Gao Y, Wang L, et al. ASDNet: Attention Based Semi-supervised Deep Networks for Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Granada, Spain, Springer, 2018: 370-378.
[29]Wang X, Han S, Chen Y, et al. Volumetric Attention for 3D Medical Image Segmentation and Detection[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Shenzhen, China, Springer, 2019: 175-184.
[30]Nie D, Wang L, Xiang L, et al. Difficulty-Aware Attention Network with Confidence Learning for Medical Image Segmentation[C]. AAAI Conference on
Artificial Intelligence, Honolulu, Hawaii, USA, 2019: 1085-1092.
[31]Zhang Q L, Yang Y B. SA-Net: Shuffle Attention for Deep Convolutional Neural Networks[C]. International Conference on Acoustics, Speech and Signal Processing(ICASSP),IEEE, 2021:2235-2239.
[32]Chen S, Bortsova G, Garcia-Uceda Juarez A, et al. Multi-task Attention-Based Semi-supervised Learning for Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Shenzhen, China, Springer, 2019: 457-465.
[33]Hou X, Shen L, Sun K, et al. Deep Feature Consistent Variational AutoEncoder[C]. Winter Conference on Applications of Computer Vision (WACV), IEEE, 2017: 1133-1141.
[34]Li C, TanY, Chen W, et al. ANU-Net: Attention-Based Nested U-Net to Exploit Full Resolution Features for Medical Image Segmentation[J]. Computers & Graphics, 2020, 90: 11-20.
[35]Cheng J, Tian S, Yu L, et al. ResGANet: Residual Group Attention Network for Medical Image Classification and Segmentation[J]. Medical Image Analysis, 2022, 76: 102313.
[36]Xia H, Ma M, Li H, et al. MC-Net: Multi-Scale Context-Attention Network for Medical CT Image Segmentation[J]. Applied Intelligence, 2022, 52(2): 1508-1519.
[37]Wang X, Girshick R, Gupta A, et al. Non-Local Neural Networks[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2018: 7794-7803.
[38]Santoro A, Raposo D, Barrett D G, et al. A Simple Neural Network Module for Relational Reasoning[J]. Advances in Neural Information Processing Systems (NIPS 2017), 2017, 30.
[39]Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C]. Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2015: 3431-3440.
[40]Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected Crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[41]Schlemper J, Oktay O, Schaap M, et al. Attention Gated Networks: Learning to Leverage Salient Regions in Medical Images[J]. Medical Image Analysis, 2019, 53: 197-207.
[42]Hu J, Shen L, Sun G. Squeeze-and-Excitation Networks[C]. Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2018: 7132-7141.
[43]Valanarasu J M J, Oza P, Hacihaliloglu I, et al. Medical Transformer: Gated Axial-Attention for Medical Image Segmentation[C]. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Strasbourg, France, Springer, 2021: 36-46.
[44]Gu R, Wang G, Song T, et al. CA-Net: Comprehensive Attention Convolutional Neural Networks for Explainable Medical Image Segmentation[J]. IEEE
Transactions on Medical Imaging, 2020, 40(2): 699-711.
[45]WangH, Zhu Y, Green B, et al. Axial-Deeplab: Stand-AloneAxial-Attentionfor Panoptic Segmentation[C]. European Conference on Computer Vision (ECCV), Glasgow, UK, Springer, 2020: 108-126.
[46]Ramachandran P, Parmar N, Vaswani A, et al. Stand-Alone Self-Attention in Vision Models[J]. Advances in Neural Information Processing Systems (NIPS 2019), 2019, 32.
[47]Silva G, Oliveira L, Pithon M. Automatic Segmenting Teeth in X-ray Images: Trends, a Novel Data Set, Benchmarking and Future Perspectives[J]. Expert Systems with Applications, 2018, 107: 15-31.