1绪论 1
1.1研究背景及意义 •••••• .....1
1.2国内外研究现状 1
1.2.1基于传统的医学图像分割方法 .2
1.2.2基于监督学习的医学图像分割方法 3
1.2.3基于半监督学习的医学图像分割方法..............……...4
1.3医学图像分割面临的挑战.……....•••”...…........……..........…”••…5
1.4论文研究内容及章节结构 6
2半监督医学图像分割相关技术介绍•.…•——•.••.•—•••.”.8
2.1半监督学习策略设计••………............8
2.1.1概述 8
2.1.2半监督学习基本理论 9
2.1.3 主流的半监督学习方法9
2.2网络模型的设计....…....................,..12
2.2.1骨干网络的设计 12
2.2.2特征编码结构的设计 15
2.2.3特征融合策略的设计 …… 17
2.3医学图像分割评价指标―…....................,..18
2.4本章小结 …… 20
3基于交叉自注意力和特征金字塔的半监督医学图像分割......•.••••••21
3.1引言 …… …… 21
3.2算法设计 21
3.2.1网络结构概述 21
3.2.2特征金字塔模块 23
3.2.3交叉自注意力模块…… 25
3.3实验设计 27
33.1实验数据集以及预处理 27
3.3.2实验平台以及超参数设置.•••.......…..….…....…..….…...…....,…28
3.3.3损失函数 28
3.3.4消融实验 28
3.3.5对比实验 30
3.4本章小结 33
4基于对抗一致性学习和动态卷积的半监督医学图像分割.....….34
4.1引言 34
4.2算法设计 35
4.2.1网络结构概述 35
4.2.2对抗一致性学习 35
4.2.3基于动态卷积的双向注意力组件 37
4.3实验设计 38
4.3.1实验数据集以及预处理•.……—.."38
4.3.2实验平台以及超参数设置 39
4.3.3损失函数..…… …… 39
4.3.4消融实验 40
4.3.5对比实验 43
4.4本章小结. 50
5 总结与展望...................…,..51
5.1全文工作总结 51
5.2未来工作展望 52
参考文献 53
1绪论
1.1研究背景及意义
近年来,随着信息技术的成熟,人工智能在医疗领域应用非常广泛。根据国家十四 五规划意见,智慧医疗以及医院信息化建设已经成为国家的重要发展内容。因此,研究 人工智能技术在医学影像中的应用具有重大意义叭
在众多基于计算机视觉的医疗分析领域中,医学图像分割是一项基础并且十分重要 的任务。医学图像分割方法可以从给定的图像中提取重要器官或病变区域,为后续研究 医学解剖结构、识别病变位置、测量器官体积以及肿瘤大小、规划治疗以及辅助医务人 员训练等方面奠定了重要基础。医学图像分割技术不仅减少了医生分析影像的时间,为 辅助医生诊断提供了便利,而且在计算机辅助诊断和治疗研究中发挥了不可替代的作用。 随着计算机成像技术的迅速发展,计算机断层扫描(Computed Tomography, CT).磁共振 (Magnetic resonance, MRI)以及电子显微镜(Electron Microscope, EM)等成为重要的医学成 像技术。因此,图像分割方法为肝脏及肿瘤分割❾、皮肤病变分割&役脑肿瘤分割 以及肺炎分割°⑷等方面提供了重要技术支持。
传统的医学图像分割技术大多是依赖于人工设计的浅层特征,其泛化性能以及鲁棒 性较差。相比于传统的医学图像分割技术,基于深度学习的医学图像分割算法具有强大 的建模以及特征表达能力,己经取得了显著的成果。然而,这些基于深度学习技术的成 功在很大程度上依赖于大量的像素级标注数据。但是在实践中,对医学图像进行标注非 常昂贵,尤其是对于三维的医学体数据,需要逐个对其切片进行标注,更加耗时耗力。 医学图像标注困难的主要原因是由于医学图像成像设备的影响,导致医学图像的对比度 低、噪声干扰严重,医学图像通常显示较差的视觉效果。另外,医学图像的标注需要比 自然图像更多的专业领域知识。因此,几乎不可能建立大量具有像素级标签的医学图像 数据库。
与监督学习相比,半监督学习是解决弱监督学习中数据不完全标注问题的一种新的 学习范式网。它主要使用少量的标注数据和大量的未标注数据来实现联合训练,能大幅 度降低模型对标注数据的依赖。在实际情况下相比于像素级的标注数据,未标注数据更 容易获得。显然,在医学图像分割中,半监督学习比监督学习更为重要,更加符合实际 临床场景的要求。因此,从有限的标注数据和现成的未标注数据中学习强而健壮的分割 模型对于深度学习模型在临床应用和医疗保健中的成功应用至关重要。
1.2国内外研究现状
医学图像分割将输入的医学图像中每个像素位置预测一个语义类别,目的是为了获 取医学图像中的解剖或者病理结构,从而更加准确、快速的为医生提供清晰的目标信息, 辅助医生进行诊断。最近,很多研究人员都专注于医学图像分割任务,这些方法不同程 度地解决了医学图像分割任务中的各种问题。这些图像分割技术主要分为基于传统的方 法和基于深度学习的方法。
1.2.1基于传统的医学图像分割方法
传统的医学图像分割方法是通过特定的图像或者严格的数学条件下产生的,具有计 算速度快、稳定性高、可解释性强等优势。其主要分为阈值分割法、区域分割法、聚类 分割法。
阈值分割冋是图像处理中经典的方法,它可以快速有效地获得分割结果,其主要通 过选择一个阈值将一个灰度图像转换为二值图像,用来区分背景和前景。阈值分割的重 要内容是阈值的选择优化方式以及应用。根据阈值优化的方式不同,主要分为基础阈值 分割和多级阈值分割。例如,Moallem等人®使用自适应的粒子群算法对基准图像中的 阈值进行优化选择,与Ostu阈值和遗传算法相比,具有更高的准确率和稳定性。在上 述阈值分割的基础上,Mohsen切等人提出了一种基于粒子群优化算法的多级阈值图像 分割方法,该方法利用定量函数方法对模糊度函数进行评估,进一步增加阈值选择的多 样性。同样地,Zhao等人阴提出一种基于全局的多级阈值优化方法,该方法将扩散机制 引入到最新的黏菌算法中,以增加种群的多样性,从而更好地避免陷入局部最优。然后 添加关联策略,以帮助算法更快地找到最优解。最后,将该算法应用于基于非局部均值 二维直方图的多级阈值图像分割,对肺部病变的CT医学图像进行分割。
阈值分割法问能快速获得分割结果,但是其对于图像的质量要求较高,对边缘清晰 的自然图像分割结果较好,对噪声以及边缘模糊的医学图像分割效果较为粗糙。因此, 消除噪声以及强化边缘是两种常用的策略。
区域分割法知中的主要代表算法为区域生长法,区域生长法主要是针对种子像素 点或者选定的子区域通过预定义的相似度计算规则来进行合并以获得更大区域的过程。 需要人工选择种子像素或者子区域作为初始目标位置。然后,将符合相似度条件的相邻 像素或者区域合并到目标位置,从而循环实现逐步增长的区域。区域的增长将取决于与 相邻位置像素的连通性,主要由图像的灰度强度、形状大小或颜色相对应的相似性标准 来衡量。因此,一般的方法需要在使用区域生长之前进行图像的预处理操作。例如, Thakur等人⑷提出基于局部统计的超声图像区域分割算法,生长区域的形状和大小取决 于同质性和相似性边界。该算法考虑了图像中的局部空间关系,但是产生的结果对像素 之间的位置不太敏感。为了克服人工种子点选择的困难和对噪声的敏感性,Deng等人冋 提出了一种基于边界梯度和方差自适应的区域生长方法用于MRI脑肿瘤分割,该方法 首先对图像的边界进行增强,使用各向异性扩散滤波器来保持边缘信息。然后在区域生 长处理步骤中,逐渐增大阈值,得到粗轮廓集。最后,通过对轮廓进行优化,获得最优 的分割结果。
区域生长法主要是适用于待分割图像目标灰度值比较均匀,传统区域生长法需要人 工手动选取种子点,比较耗时耗力,效果较差,对生长准则制定直接影响着分割的效果。
聚类算法口旳是机器学习中比较流行的研究课题,其主要根据规定的准则函数将同 类数据进行分类,并根据多次的迭代学习使聚类准则函数最小化,从而达到类内间距最 小,类间距离最大。常规的聚类算法主要有K-means聚类和模糊聚类(Fuzzy C-means Clustering, FCM)等。K-means聚类是一种硬聚类算法,主要通过一定的聚类度量进行 迭代,将数据分为不同的簇,其算法的稳定性不高,受初始聚类中心的选择影响较大。 模糊c-means聚类算法是一种软聚类算法,更加适用于空间信息复杂的医学图像分割, 其主要通过每个像素点属于类别的隶属度来进行判别分类。聚类算法易于对高维数据的 建模,在多通道图像中具有一定的优势,但是存在手动选择聚类数,抗噪声能力差、计 算量大等问题。为了解决这些问题,Liu等人㈤研究了基于混合优化模糊c-means聚类方 法应用于医学图像分割,但是该算法为了克服噪声的影响需要不断地迭代,从而导致计 算量较大。Lei等人冋提出一个自适应类别数的模糊聚类(FCM)框架可以拓展于任何 图像的分割,取得较为鲁棒的性能。该算法不仅考虑了图像的空间信息,提升稳定性, 并且大幅度降低了计算量和参数量。
聚类算法何的优点是相比于传统图像分割算法更具鲁棒性,并且对于高维数据的分 类性能较好。缺点是它对于图像的全局空间信息利用不充分,并且对噪声点非常敏感, 导致分割结果粗糙。
1.2.2基于监督学习的医学图像分割方法
近年来,随着深度学习的飞速发展,其在各个领域得到了广泛的应用。与传统图像 分割方法不同,基于深度学习的图像语义分割算法具有高效的特征表达以及建模能力, 其原理实际上是对图像中的逐像素分配一个语义类别,从而得到像素级的密集分类。自 AlexNe严]在图像分类任务取得了巨大的成功以来,研究人员将卷积神经网络应用于图 像语义分割任务中。
Long等人切最早提出一个端到端的全卷积神经网络(Fully Convolutional Neural Network, FCN)进行图像分割,其主要使用卷积作为特征编码,反卷积作为解码进行图像的 空间恢复。其首次采用跳跃连接,使得深层高级语义特征与浅层细节特征的融合,在语 义分割任务上取得了较高的性能,也为后续的编解码结构的提出奠定了基础。但是, FCN中使用加法操作进行高低特征的融合,会造成信息错乱和冗余,导致融合效率较 低,并且一次性进行多倍上采样使得空间细节信息损失较为严重,最终导致得到的分割 结果不够精细。为了解决上述问题,Ronneberger等人閃提出网络结构对称的编解码网 络U-Net,在医学图像分割任务中取得了令人瞩目的成就,但是,随着网络深度的加深, 梯度消失和目标特征信息丢失问题会愈加明显,并且U-Net中将编解码的特征直接融合, 导致信息的不匹配,融合效率较差。因此,后续一些基于U-Net的改进主要分为编码阶 段、特征融合阶段。
在编码阶段的改进主要是为了更好地进行特征提取,扩大网络的感受野提升网络的 特征表达能力,例如,典型的网络有:具有残差结构ResU-Ne严创、CE-Net㈣、具有密 集连接的DensU-Ne严)、H-DensU-Net丽等,这些残差连接以及密集连接的方式不仅能增 加特征复用还缓减梯度消失。同样地,一些方法卷积方面的改进策略也能提升网络的性 能,例如,多尺度的空洞卷积审旳、动态卷积呻。]、Ghost卷积化可变形卷积网等。多 分支Inception网络呵同样能带来巨大收益,多分支结构通过不同感受野的并行分支编码 器来进一步提升网络的特征提取能力,既增加了网络的宽度,也增加了网络多尺度的适 应性,典型的网络有HI-Ne严、Ki-UNe严1等。另外,基于Transformer的网络结构〔心力是 当前深度学习的另一个热门研究方向。Transfoi-mer与卷积神经网络(CNN)不同,由 于Transfoi-mer结构在整个网络中不断计算特征图的自注意力,并使用MLP获得全局的 远程依赖关系,因此,将Transformer作为分割网络的主干取得了显著的成效,但是 Transformer结构会带来巨大的参数量和计算量,典型的网络有TransU-Net^、SwinU- Net〔4刃、UT-Net抄旳、MAT阿、U-Netr冋等。
通常在编解码网络中,神经网络在浅层主要提取图像的边缘、纹理等细节信息,随 着网络得的加深,特征图分辨率变小,深层的网络可以提取到图像的高级语义信息。因 此,在U-Net网络中,主要通过跳跃连接将编码阶段得到的细节信息补充到解码阶段, 这种策略获得了精细的分割效果。为了解决特征融合效率较低的问题,主流的方法设计 密集跳跃连接或者注意力机制等方法来进行特征融合,典型的网络有密集跳跃连接U- Net++[5\全尺度跳跃连接U-Net3+冋以及注意力机制的Attenion-U-Net网、自注意力机 制 Nonlocal U-Net[57]、MU-Net网等。
1.2.3基于半监督学习的医学图像分割方法
近年来,基于监督学习的医学图像编解码网络在医学图像分割方面取得了显著的成 果,有效促进了医学图像分割的发展,典型的网络有U-Net叭U-Net++叭H-DensU- Ne严]等。然而,这些技术的成功严重依赖于大量像素级标注的数据。在医学图像分割 任务中精确标注的数据较少,因为不同成像设备得到的图像会存在噪声大、对比度低、 目标器官或病灶位置多变等问题,导致医学图像标注困难。另外,由于医学图像标注任 务对医学专业知识具有一定的要求,导致医学图像标注成本较高。因此,缺乏精确标注 的数据是医学图像自动分割任务的一大挑战。
与监督学习相比,半监督学习是一种新的学习范式,用于解决弱监督学习中数据监 督不完全的问题冋。半监督学习主要使用少量的标注数据和大量的未标注数据来实现联 合训练从而得到更高的分割精度。显然,在医学图像分割中,半监督学习比监督学习更 重要,更符合实际临床场景的要求。目前,主流的半监督医学图像分割方法大致可分为 一致性学习眇切、对抗学习妙何、伪标签学习隔75、对比学习⑺刑和协同训练皿湘。
一致性学习通常使用具有不同扰动的一致性正则化来训练网络。在一致性学习中, 最具代表性的方法是均值教师(Mean teacher, MT) 1591,该方法利用未标注数据上教师 模型和学生模型之间基于扰动的一致性损失以及标注数据上的监督损失进行联合学习。 MT首先对有标注数据进行监督学习;然后使用教师模型为未标注数据提供伪标签,通 过不同的正则化方式使教师-学生模型在不同扰动下对未标注数据的预测一致性;最后, 通过监督损失和一致性损失的反馈来更新学生模型。其中,教师模型为学生模型权重的 指数移动平均(EMA),该操作使教师模型不断积累网络对未标注数据历史预测信息。 准确地说,分割网络生成一致伪标签的质量决定了网络对未标注数据的知识挖掘能力。 因此,后续基于MT的改进的方法通过不同的一致性正则化策略来提高对未标注数据的 预测质量,从而获得性能的增益。
在对抗学习中,用于医学图像分割的生成对抗网络(GAN)声句主要涉及两个子网 络,即鉴别器和生成器。鉴别器的目的是识别输入样本是来自真实的标注还是来自生成 器。生成器的目的是让鉴别器无法区分真实标注和分割网络的输出。一旦鉴别器无法确 定输入来自何处,则生成样本被视为与标签足够接近。这两个网络交替更新,相互促进。 因此,对抗学习是一种通过有效地从未标注数据中挖掘潜在知识来提高模型鲁棒性的流 行策略。
伪标签学习方法(°8-70'76-791利用模型自身高置信度的预测结果为未标记生成伪标签,将 生成的伪标签作为下一次训练,从而增加更多的训练数据是一种变相的数据增强。例如 主流的嫡最小化凹使用了自训练的方法,目的是为了获取更加确定的预测结果。但是自 训练的方法过程需要人为进行调试,训练过程将迭代多次,直到性能提升可以忽略不计 才可作为高置信的预测结果。
1.3医学图像分割面临的挑战
目前,医学图像分割任务主要面临着两个挑战,分别为数据挑战和模型挑战,数据 挑战对应着模型结构和学习方式的改进,模型挑战对应着模型方面的改进。
数据挑战:众所周知,对于医学影像分析领域,由于医学影像成像原理不同导致多 模态数据之间具有一定的差异性,并且医学图像本身具有一定的特殊性,器官之间位置 相对位置固定,但是轮廓结构变化较大;另外,由于医学成像设备的限制,使得医学图
像具有一定的物理噪声和图像重建误差,导致医学影像中目标器官与周围组织之间边界 模糊,对比度低;医学影像分割任务对标注要求非常高,并且具有专业性,因此,缺乏 大量具有多样性以及精确的标注数据,并且数据样本不均衡,正负样本数量往往差异较 大。
模型挑战:由于成像机理不同,导致面向自然图像领域的网络模型难以直接迁移到 医学图像分割任务中。由于医学图像分割模型复杂庞大,造成网络模型超参数选择以及 优化困难,模型参数量以及计算量增大的问题,从而导致模型在实际应用中部署困难。 医学图像分割任务通常需要更高精度,因此对数据量的要求较高。然而,医学影像分析 通常是小样本学习问题,由于数据多样性的不足导致模型训练有一定的过拟合现象,模 型受噪声的影响比较脆弱,泛化及鲁棒性能差。另外,模型的可解释性对于医学影像分 析也至关重要。
1.4论文研究内容及章节结构
本文主要研究基于半监督学习的医学图像分割方法,主要解决标注数据资源受限的 问题,通过改进不同的学习策略和分割模型,有效利用少量标注数据和大量未标注数据 来提高模型的性能。其主要研究内容分为两部分。
第一,针对医学图像尺度变化较大网络特征提取能力弱,并且分割网络无法有效获 取器官之间全局关系等问题,提出基于交叉自注意力和特征金字塔的半监督医学图像分 割方法(FPS-Net)。该方法首先通过设计的特征金字塔模块进行分组特征提取,其次, 通过设计的交叉自注意力模块来获取图像的全局关系,旨在于通过网络模型中编解码之 间的互相指导来提高学习效率。
第二,针对半监督医学图像中未标注数据利用不足问题,提出基于对抗一致性学习 和动态卷积网络的半监督医学图像分割方法(ASE-Net)。该方法首先通过结合一致性 学习以及对抗学习策略来有效利用未标注数据和标注数据之间的先验知识,然后通过利 用动态卷积来改进分割模型的特征提取能力,有效提升分割精度。
本文整体由五个章节构成。
第一章主要阐述医学图像分割领域的主要研究背景和研究意义,并且介绍了医学图 像分割领域的国内外的主要研究方法主要介绍了监督以及半监督的医学图像分割方法。 其次,分析了医学图像分割领域面临的主要挑战以及根据罗列的问题提出论文的主要研 究内容和工作路线。
第二章主要介绍了基于深度学习的医学图像分割的相关技术介绍,其主要分网络模 型的设计以及半监督学习策略的介绍。网络模型的设计主要从骨干网络模型的设计、特 征编码的设计以及特征融合的设计三个方面。骨干网络设计主要根据不同的数据输入将 其分为2D、3D和Transfbrmer。特征编码的设计主要根据不同的卷积形式以及卷积不同 的连接方式进行分类。特征融合主要从上下文融合模块的设计、注意力机制融合、跳跃 连接的融合三个方式进行介绍。半监督学习策略主要介绍了传统的方法、一致性学习的 方法、以及深度对抗学习的方法。一致性学习以及深度对抗学习主要介绍深度学习的学 习策略。
第三章主要介绍了提出的基于交叉自注意力机制和特征金字塔的半监督医学图像分 割网络(FPS-Net)。首先,介绍了 FPS-Net的主要网络结构以及半监督学习的训练策略。 其次,详细介绍了提出的交叉自注意力和特征金字塔的主要结构以及优势。最后,通过 消融实验和对比实验验证了提出方法的有效性。
第四章主要介绍了提出的基于对抗一致性学习和动态卷积的半监督医学图像分割网 络(ASE-Net)。首先,介绍了 ASE-Net的整体结构和训练策略。其次,主要介绍了算 法设计包括对抗一致性学习以及基于动态卷积的双向注意力组件。最后,通过实验验证 了提出学习策略以及组件的有效性。
第五章对目前的工作进行了总结,并对未来的工作路线进行展望与规划。
2半监督医学图像分割相关技术介绍
近年来,基于半监督学习的图像分割方法取得了广泛的应用,并且大量优秀的工作 值得去认真研究。本章主要阐述了基于半监督学习的相关理论及技术介绍,其主要分为 半监督学习策略的设计、半监督分割网络模型的设计以及医学图像分割中主要的评价指 标。对于学习策略的研究,主要将其分为一致性半监督学习、深度对抗半监督学习以及 混合半监督学习三个方面。对于网络模型的设计,主要从骨干网络设计、特征编码方式 改进、特征融合策略优化三个方面进行总结。
2.1半监督学习策略设计
2.1.1概述
近年来,监督学习的方法取得了令人瞩目的成就,其模型的特征表达以及泛化能力 非常强大,主流的方法有ResNet剛,ViT泅等,然而这些技术的强大依赖于大量精确标 注的数据,并且在医学图像分割以及遥感图像分割等领域,获取大量具有精确标注的数 据比较困难。这些领域的数据标注不仅需要相关专业知识人员,而且标注数据耗费大量 的人力物力,成本较高。事实上,对于新的特殊任务或是需要快速部署应用的场景下, 数据稀缺问题较为严重,监督学习容易产生过拟合现象。因此,数据标注的高成本降低 了模型在特定任务应用的可能性和扩展性,从而阻碍了深度分割模型在现实场景中的应 用。
针对上述问题,半监督学习是比较有效的解决方案,其主要利用少量的标注数据和 大量的未标注数据进行联合学习,其旨在于有效利用未标注数据,将精确标注数据的知 识向未标注数据进行迁移,进而使得网络模型降低对于标注数据的依赖。此外,这种学 习方式非常接近人类大脑的学习方式。实际上,早在1970年,在基于深度学习的技术 提出之前,已经有半监督学习的概念出现㈤罰,其主要利用传统算法进行半监督学习, 研究人员最早建立了自我训练的方法。自我训练是一种迭代的方法,其使用初始标注的 数据来训练模型,进而预测一些未标注的样本。然后将置信度最高的预测标记为当前监 督模型的最佳预测,从而为监督算法提供更多的训练数据,直到所有未标注的样本预测 完毕。
为了解决医学数据量限制的问题,许多研究者提出了有效的半监督学习方法。传统 的半监督医学图像分割方法主要通过手工设计的特征来构建模型。例如,Portela等人剛 提出一种基于高斯混合模型融合聚类的半监督MR脑图像分割。之后,Jaisakthi等人阿 结合直方图计算、K-means聚类以及洪水填充算法进行皮肤癌图像分割。另外,生成模
型路S6],半监督支持向量机*7砌,基于图的方法路呵和联合训练阿也是典型的半监督学习 方式。然而,这些传统的方法使用人工设计的浅层特征,表达能力有限,导致性能不稳 定。在2012年AlexNet深度学习模型提出之后,基于深度神经网络的半监督学习方法 大量涌现出来,其主要分为一致性学习“"役对抗学习"伪标签学习路呵以及混合学 习"75]等。
2.1.2半监督学习基本理论
半监督学习主要是弱监督学习中的一个分支,主要为弱监督学习中的不完全监督, 即只有少量带有标注的数据,并且大量的数据没有标签。半监督学习主要满足三个基本 假设刚,如图2-1为半监督学习原理图,包含三个假设分别是平滑性假设、聚类假设 (低密度分离假设)以及流形假设。平滑性假设表示在高密度区域中两个距离较近样本 数据其类标签大概率相同,换句话说就是当两个样本相似时,它们的标签也应该相同。 聚类假设是平滑假设的一个特殊情况,如果数据点在同一个簇中它们可能是属于同一个 类别,并且所产生的决策边界应该位于聚类簇的边界的低密度区域。流行假设指的是在 高维空间中距离和密度的概念趋于无效时,如果高维的数据可以与一个低维空间进行映 射,那么低维空间的数据分布仍然满足平滑性假设和聚类假设。
(a)平滑假设和聚类假设 (b)流形假设
图2-1半监督学习原理图
Fig. 2-1 Schematic diagram of semi-supervised learning
半监督学习实际上是监督学习和无监督学习的结合,其主要解决三个优化问题,即
监督损失、无监督损失以及正则化损失。表示为minLs(x,0) + aLu(x,0) + ^R(x,0),
0
其中厶s表示监督损失,如交叉爛损失,仏表示无监督损失如一致性损失,R表示正则化 项目的是为了降低网络的过拟合风险。通常情况下,无监督损失项与正则化项不进行严 格的区分,因为正则化项和无监督损失项都不受标签信息的指导。因此,不同的监督损 失的设计表示了不同的半监督学习框架。
2.1.3主流的半监督学习方法
目前,在平滑性假设、聚类假设以及流形假设的基础上,衍生出了一些代表性的基 于深度学习的半监督学习方法,主要将其分为一致性学习、深度对抗学习、伪标签学习 以及混合学习方法。
图2-2不同的半监督学习方法
Fig. 2-2 Different semi-supervised learning methods
(1) 一致性学习方法:一致性学习方法妙64"驹是基于平滑假设和流形假设提出来的, 其目的是鼓励未标注数据经过不同的扰动方式使得模型具有一致性的预测结果。其中, 扰动方式包括数据扰动和网络扰动,在数据扰动方面,Laine等人阿提出的II模型鼓励 网络在不同的扰动下输出具有一致性,但是会造成历史预测信息的丢失。为了改进口模 型,时间集成策略通过使用指数平均移动(EMA)对未标注数据进行预测,然而这会 造成训练中的大量的内存开销。目前,如图2-2 (b),最具代表性的一致性学习方法均 值教师(MT) [59],将输入数据通过不同的噪声,使得模型预测具有一致性,通过一致 性学习方法不仅可以利用未标注数据,而且可以方式网络在少量标注数据上过拟合。进 一步地,Li等人画提出了不同数据扰动方式(噪声、旋转、缩放等),通过引入变换一 致性的正则化策略(TCSM_v2),有效利用未标数据。Liu等人何提出了一个严格扰动 均值教师(PS-MT)框架,通过不同的损失函数、辅助教师模型和扰动方法来提高分割 的准确性。如图2-2 (a),在网络扰动方面,Chen等人冋提出了一种基于网络扰动的交 叉伪监督(CPS)方法,以鼓励两个扰动网络的预测结果之间的高度一致性。然而,计 算未标注数据的预测之间的一致性会导致一些不可靠的指导,从而使训练不稳定。为了 解决这个问题,YU等人冋提出了一个基于均值教师(UA-MT)的不确定性感知框架, 使得学生模型在多次前向传播后,根据不确定性估计逐步学习更可靠的目标。为了减少 时间和内存开销,Wu等人何提出了一种相互一致性网络(MC・Net)°该网络包括两个 解码器,并将两个预测之间的差异表示为模型不确定性信息,以规范模型训练,从而提 高伪标签的质量。此外,Luo等入昭通过联合预测分割图和目标的几何感知水平集表示, 构建了双任务一致性正则化方法(DTC),并且DTC通过改变网络输出关注任务级一致 性,而不是数据级一致性。
(2)深度对抗学习方法:对抗学习方法[65"7'97-,01]可以学习数据的隐式特征,以更好地 建模数据分布。对抗学习能有效利用未标记数据和标记数据之间的先验关系,提高模型 对未标记数据的利用率同时降低模型对标记数据的依赖性。因此,对抗学习已经成为半 监督医学图像分割任务中的主流方法。半监督对抗学习实际上是从无监督学习中的生成 对抗网络迁移而来,如图2-2 (c),对抗学习的主要架构是将分割网络作为生成器,将 分类网络作为鉴别器。主流的对抗学习模式是分割网络作为正常的监督学习,而鉴别网 络主要区分标记数据和未标记数据的分割结果。分割网络和鉴别网络通过交替训练的方 式,互相博弈,使得网络有更多的监督信号进行学习。例如,Zhang等人阴提出了一种 深度对抗网络(DAN),以提高未标注数据的预测质量,其中生成器主要目的是为了生 成高质量的分割图像,鉴别器目的是使得标注数据和未标注数据分割结果的差异缩小。 然而,主流的半监督对抗学习方法粘"旳只包含一个生成器和一个鉴别器,这可能会由 于过度依赖单个网络的结果而导致分割精度低。因此,从分割精度较低的模型中获得的 知识可能会在未标注数据的学习过程中产生误导。另外,一些改进的方法陞呵同时考虑 了一致性学习和对抗性学习,以提高模型的学习能力。
⑶伪标签学习方法:伪标签方法跑皿7"咱问目的是为未标注数据集生成置信度较高 的伪标签,以达到扩充数据集的目的。如图2-2 (d),伪标签方法与一致性正则化方法 的不同之处在于,一致性正则方法通常依赖于丰富多样的数据变换作为网络的一致性约 束,目的是为了正则化模型的训练。相反,伪标签方法依赖于高质量的伪标签,准确地 说,分割网络生成伪标签的质量决定了网络对未标注数据的知识挖掘能力。另外,可以 将其作为标注数据添加到训练数据集中。主要有两种模式,一种是基于多分支或多个网 络来提高整个框架的性能,例如,Zeng等人[阿提出一个三分支的网络结构,为未标注 数据提供了三个结果,可以选择置信度较高的作为伪标签。另外一种方法是自训练,特 别是在无监督领域中的自监督学习的成功使得一些自训练方法得以实现。例如,Yang 等人呦提出了一种先进的自训练框架(ST++),该框架通过基于整体预测水平稳定性作 为目的,通过对可靠的未标记图像进行优先级排序来执行选择性的自训练。另外,一种 基于自训练的不确定性方法具有较高的研究价值,对于预测结果进行不确定性估计,增 加不确定性的衡量损失,能够进一步获取高质量的伪标签。例如Mehrtash等人丽使用深 度集合进行置信度校准,他们使用不同的初始化和训练数据的随机洗牌来训练多个模型, 最后将置信度校准模型应用于大脑、心脏和前列腺分割。
(4)混合方法:目前,由于自监督学习的快速发展〔冋,大部分的半监督学习方法都 是基于自监督学习的混合方法,自监督学习不需要昂贵的注释,就可以学习数据的特征。 其主要分为对比学习和自编码器。对比学习的目的是使网络学习特征之间的差异。具体 来说,对于一个分类任务,监督学习是需要标签来进行学习,但是对比学习通过构造正 负样本使得不同类别的输入数据具有不同的特征,故而从特征级别进行无监督的损失惩 罚。具体地,对比学习旨在于将同一样本的不同增强方式的特征距离靠近,同时试图使 得不同样本的特征距离拉大。例如,Chaitanya等人呻结合了局部特征的对比学习和全 局特征的对比学习,它鼓励图像中局部区域的表示在不同变换下具有相似性,而与同一 图像中其他局部区域的特征不同,进而与主流的半监督学习方法结合具有互补优势。自 编码器也是一个编解码网络,其输入是经过扰动的原图,输出是恢复清晰的原图,因此, 可以将自编码器的编码阶段作为提取特征的骨干网络,并且主干网络是经过预训练,能 够准确编码一张图像的特征。例如,Sae-Ang等人[切提出了基于自编码器辅助模块的缺 陷分割半监督学习框架,使用自编码器进行辅助训练,不仅能够有效地进行编码,而且 不会增加额外的参数。另外,Berthelot等人阿提出的MixMatch为未标注数据引入了一 个混合的损失项,该项不仅减少了燔,同时保持了一致性,并与传统正则化技术保持兼 容。
2.2网络模型的设计
神经网络算法任务的重大突破主要依靠数据驱动以及模型结构驱动。其中,神经网 络结构的设计及优化对于任何任务来说都是至关重要的,具有高度结构化的神经网络是 基于数据驱动的重要前提。因为,不合理的神经网络结构会造成网络学习缓慢、网络严 重过拟合、信息过度冗余、梯度消失/爆炸等问题,最终导致网络精度低、泛化能力差。 所以,设计更鲁棒的网络结构具有重要的研究意义。基于监督学习的医学图像分割方法 取得了显著的成果,因其具有较强特征提取能力,从而能获得高精度以及鲁棒的分割结 果。基于监督学习主要使用带标签的数据集进行训练就可达到较高的分割精度。目前, 基于监督学习的医学图像分割方法主要专注于网络结构的改进,涉及骨干网络的设计、 特征编码方式的改进以及特征融合策略的优化三个方面。
2.2.1骨干网络的设计
图像分割主要为图像中的每个像素分配一个语义类别。与图像分类不同,图像分类 是图像级别的分类,每张图像具有一个类别,而图像分割是像素级别的分类,通过逐像 素的进行分类。医学图像分割任务中最主流的是基于端到端形式的编解码网络,其主要 结构呈U形,由编码器和解码器组成,编码器主要对图像进行编码包括图像的浅层边缘 信息、深层的语义信息以及上下文信息等,解码器则是将编码器得到抽象高维度的特征 进行恢复最终得到分割结果。根据输入数据的方式将主流的编解码网络分为2D分割网
络、3D分割网络、基于Transfbnner的分割网络。
(1) 2D分割网络:基于卷积的2D图像分割网络以其高效的特征表达和建模能力著 称,主要通过卷积的形式对图像进行编码。典型图像分割网络为Ronneberger等人㈣提 出的U-Net结构,如图2-3所示,左半部分主要是特征提取编码过程,右半部分是上采 样解码过程,中间是跳跃连接部分。U-Net拥有完美的对称结构和跳跃连接,其在医学 图像分割方面取得了重大突破,在网络的编码阶段,每个卷积层后面都有一个池化层, 该层使输入图像映射到一个较低的维度上,网络感受野的大小随着网络深度的增加而增 加,从而使其能够提取更深层次的高级特征,并且跳跃连接可以有效实现图像的高低层 特征融合,一定程度上解决了医学图像分割精度低的问题,其主要针对小样本的医学图 像分割任务。目前,U-Net已经成为大多数图像分割任务的基准,基于U-Net改进的分 割网络具有许多创新性的工作。但是,随着网络深度的加深,梯度消失和小目标特征信 息丢失问题会愈加明显。为了解决这一问题,ResU-Ne严创在编码阶段设计残差连接的 方式,有效解决了梯度消失的问题。之后,Dens-U-Ne严切通过引入密集连接的方式在 有效防止梯度消失的前提下,通过对特征的极致利用达到更好的效果和更少的参数。另 外,双解码器网络KiU-Net问通过设计双分支网络结构同时兼顾浅层特征和高级语义特 征,其中一个分支将输入图像映射到更高的维度上来缓解小目标信息的丢失,另一个分 支采用传统的编码网络来提取高级语义信息。更多主流的2D骨干网络有U-Net++何, MU-Net网,CE-Net®】等。
「毎飜环丽.r:
I 跳跃连接
! * TW
|金上采样2x2
;瞬巻积1x1
图2-3 U-Net网络结构
Fig. 2-3 The U-Net architecture
⑵3D分割网络:3D医学图像分割网络映叩与2D分割网络结构形式一样,卷积为 3D卷积,输入数据是3D的形式,例如计算机扫描(CT)和核磁共振数据(MR),因
此,Cicek等人提出新的骨干网络3D U-NeF08】来处理3D数据,其主要将2D U-Net扩展 为3D的形式,进行3D数据的分割。相比于2D网络,3D网络整合了时间序列的信息, 其能有效的增加不同切片数据之间的信息交互,从而达到更好的分割效果,例如, Milletari等人。切针对3D医学数据提出的V-Net利用残差连接使得特征进行重复利用, 使用卷积替代池化操作降低信息的损失。但是3D网络相比于2D网络耗费大量的计算 资源,因此Lei等人呻提出轻量型V-Net进行医学图像分割,有效降低了模型的参数量, 并且获得了具有竞争力的性能。但是由于计算资源的限制,大部分数据都是经过裁剪预 处理成部分较小的3D片段输入网络中,虽然增加了图像的序列信息,但是单个切片经 过裁剪之后,损失了部分空间信息。而2D网络直接将3D数据进行切片处理,单个切 片的数据不会损失,并且2D网络因其结构简单、计算速度快、参数量小等优势而应用 广泛,因此2D网络和3D网络各有优势。
图 2-4 Transformer 架构
Fig. 2-4 The structure of Transformer
⑶ 基于Transformer的分割网络:最近,基于Transfdrme严5习的神经网络成为了计 算机视觉领域的热门研究方向,与卷积神经网络获取局部信息的操作不同,如图24所 示,Transformer的主要原理是通过计算逐像素的自注意力来不断获取图像的全局上下 文信息,其主要解决图像中的长距离依赖问题。Transformer主要由自注意力计算和多 层感知器(MLP)组成,其主要通过矩阵运算获得全局的空间关系然后通过MLP进行 整合。例如,Chen等人陶提出TransU-Net进行医学图像分割,其首次将Transfbrmer架 构应用到医学图像分割任务中,取得了较好的分割效果。但是由于Transformer结构在 图像的高分辨率就开始计算逐像素的注意力,耗费巨大的计算量和参数量。因此,后续 的改进方式为降低模型的计算量同时保持性能的提升。Cao等人的提出Swin-U-Net用于 医学图像分割,其主要通过滑块计算自注意力,通过滑块的变换叠加获取全局的注意力, 这样的方式能有效降低网络模型的计算量和参数量。总的来说,基于Transfonner和基 于卷积的分割网络都具有非常大的潜力。基于Transformer对长距离依赖的任务非常有 效,而基于卷积的分割网络对局部的信息依赖的任务比较有效。
总之,不同的骨干网络具有不同的效果,2D网络能够使得网络简单有效。3D网络 能够获取数据的时序信息,根据时序信息提高分割的准确率。而基于Transfonner的网 络能够获取图像的全局关系,解决远程依赖的问题。
2.2.2特征编码结构的设计
在图像分割领域,大多数用于图像分割的结构都是编解码卷积神经网络。特征编码 结构设计主要通过改进分割网络中编码阶段的连接方式以及卷积的形式以达到对特征信 息的充分挖掘。
图2-5标准卷积和深度卷积结构
Fig. 2-5 The structure of Standard convolution and depthwise convolution
不同的编码方式具有不同的效果,目前,大部分研究人员注重卷积之间的连接方式 的改进,除了具有残差连接、密集连接以及多分支的网络模型之外,还有带有注意力机 制的特征编码骨干网络,典型的网络有SE-Netfll2\ ECANe严]、Transfbnne严等,注意 力机制主要为不同的通道或者空间赋予权重,使得通道和空间上的特征差异变大,增加 网络模型对于图像的可分性。另外,轻量型网络的编码方式与常规的卷积神经网络具有 很大的不同,轻量型特征编码主要对卷积的空间、通道维度进行分解,使得网络变得更 加轻量,这种方式不仅具有较少的参数而且能够使得网络的深度和宽度增加,从而进一 步增加模型的鲁棒性能。目前卷积的形式分为常规卷积、轻量型卷积以及动态卷积。在 这里主要介绍轻量型卷积和动态卷积。
(1)轻量型卷积:由于常规卷积使得网络的深度和宽度设计具有局限性,会带来巨 大的参数和计算量,如图2-5 (a)所示。因此研究人员设计了轻量型卷积,其主要进行 空间和通道维度的分解,使得网络模型进一步压缩,在通道维度的压缩方面:主要有深 度可分离卷积、分组卷积以及ghost卷积。Zhang等人吋提出的分组卷积主要将输入数
据的通道进行分组,迫使卷积的形式发生变化,另外,分组卷积使得网络模型进行并行 处理从而提高学习效率。Howard等人口呵提出的深度可分离卷积中分组数与输入通道相 同,具体如图2-5 (b)所示,通过将分组进行到极致,在单通道的空间位置上进行二维 深度卷积,然后将得到的特征图进行拼接,最后进行1X1的点卷积进行融合。
恒等映射
特征图
(k channels)
03
图2-6 Ghost卷积
图2-7动态卷积结构
Fig. 2-7 The structure of Dynamic convolution
(2)动态卷积:传统的深度学习网络是静态推理的,即训练后网络参数是固定的。 对于不同的输入样本,这些静态网络使用相同的参数结合不同的输入输出不同的预测, 这导致一些复杂的输入样本由于特征表示能力较弱而预测效果较差。与静态网络相反, 动态神经网络(呵是指在推理阶段,网络结构⑴役参数何、特征“问根据不同的输入而变 化。例如,在基于注意机制的动态特征网络方面,Gu等“刃详细展示了注意机制的有效 性,在医学图像分割中取得了较好的效果。因此,动态神经网络更符合人类的视觉系统。 接下主要介绍基于动态卷积的神经网络。
如图2-7 (b)所示,Yang等人何提出的条件参数化卷积(Condition conv)和Chen 等人閃提出的动态卷积神经网络(CNN)主要是根据输入图像动态聚合来自不同卷积核 的多组权重,实现动态卷积。然而,这两种方法都导致参数数量急剧增加,并且只使用 通道的先验知识,而不考虑特征图的空间信息。为了解决这一问题,内卷(Involution) 网和去耦合的动态滤波网络(Decoupled Dynamic Filtering, DDF)跑提出了空间特异性的 思想,使卷积核参数的值随特征图中的空间位置而变化。Involution和DDF方法巧妙地 利用样本的空间先验知识提取图像的空间结构信息,取得了较好的效果。如图2-7 (c) 所示,与上述方法相比,Li等人削通过并行策略引入全维动态卷积,学习更灵活的注意 力,提高网络性能。一般来说,动态卷积通过根据不同的输入调整网络参数值来对卷积 核进行软注意力。因此,动态神经网络可以有效地利用样本的先验知识来改善特征表示。 2.2.3特征融合策略的设计
特征融合策略的设计主要通过对跳跃连接和编解码之间的多尺度特征融合进行改进, 主流的改进策略包括跳跃连接、多尺度融合以及注意力机制。其中,跳跃连接的改进主 要是在跳跃连接部分增加一些特定的模块使得编解码之间的语义差距降低。多尺度融合 方法大多数使用在编解码之间的最后阶段,通过不同的技术手段获取特征的多尺度上下 文信息。基于注意力机制的融合方法可以灵活使用到跳跃连接部分或者编码之间的最后
图 2-8 (a) U-Net, (b) U-Net++、(c) U-Net3+的结构
Fig. 2-8 The structure of (a) U-Net, (b) U-Net++, (c)U-Net3+
(1)跳跃连接融合:在编解码网络中通过不断的下采样操作会使得图像的细节特征 减少同时语义信息较为丰富。因此在解码端的特征大部分是语义信息,但是为了恢复原 图大小获取更加精细的分割结果,从解码的各个阶段获取的细节信息补充到解码端是非 常有必要的。但是,U-Ne严在跳跃连接中直接将低级特征和高级特征以拼接的方式进 行融合,这样会导致编解码之间的语义信息的不匹配,融合效率较低。针对该问题, MU-Net网在跳跃连接阶段利用卷积操作降低了高低维度特征融合的差异,得到了精确 边缘分割结果。除了卷积操作外跳跃连接的连接方式也能巧妙的减少编解码之间的语义 差距,如图2-8为U-Net冋、U-Net++[54\ U-Net3+冋的示意图。Zhou等人提出了 U- Net++,该网络使用嵌套的密集跳跃连接方式进一步缩小编码器和解码器特征映射之间 的语义差距。与U-Net++相比,Huang等人冋提出的U-Net3+通过全尺度的跳跃连接将 不同阶段的信息补充到解码阶段,增加了不同层级之间的信息交流。
(2)多尺度融合:为了更进一步挖掘图像的多尺度上下文信息,减少信息的损失。 Zhao等人冋提出的PSPNet (Pyramid Spatial Parsing Network)利用多尺度卷积核能够捕 获图像的多尺度特征,提升网络对复杂场景的适应能力,但是较大的卷积核造成参数量 和计算量的增加。为了解决该问题,DeepLab v2[,211中的空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)利用不同空洞率的较小尺寸卷积核来扩大感受野捕捉 目标的多尺度信息。此外,更多基于U-Net网络的改进模型有nnU-Ne严弋CE-Net^、 DefED-Net[51等,这些网络目前都是医学图像分割中使用多尺度融合技术获得了较好的 分割结果。
(3)注意力机制融合:由于注意力机制能够实现特征图的自适应融合,因此无论是 通道注意力还是空间注意力机制都能有效改善特征融合效果,尤其是具有自注意力机制 的Non-Local网络竺 多尺度融合方法具有较大的参数量,而自注意力Non-local1571操作 捕获了像素之间的长程空间依赖关系,这一模块可灵活部署在任何主干网络中以提高图 像分割精度。大部分的注意力机制融合网络使用在编解码网络的跳跃连接或者编码的最 后一层进行融合。注意力机制通过增强感兴趣区域的权重,使得空间和通道之间具有差 异,有利于甄选出有用的信息。另外,跳跃连接上的注意力机制可以有效的选择编码的 细节信息,以供解码进行使用。各种改进的注意力机制被应用于医学图像分割,一定程 度上改善了图像分割效果。例如,Feng等人冋提出的CPFNet设计了一个尺度感知金字 塔融合模块,通过注意力和多尺度的结合来动态融合编解码中丰富的上下文信息,得到 了更加精细轮廓预测结果。其他主流的网络有Attention U-Net阿,Focus U-Ne严勺等。
显而易见,基于网络结构的优化已经成为图像语义分割任务中主要的研究方向。并 且有效的编码方式和特征融合策略能提升网络的分割精度,进一步提升网络的特征表达 能力。
2.3医学图像分割评价指标
本文主要研究医学图像分割,主要根据主流的文献[125-126'129]使用的医学图像分割指标
来评估不同算法的分割结果,包括Dice系数(Dice coefficient, DI)、Jaccard相似指数 (Jaccard index, JA)> 像素精度(Pixelwise Accuracy, AC)、敏感度(Sensitivity, SE)、 特异性(Specificity, SP)、95%豪斯多夫距离(95% Hausdorff distance, 95HD)以及平 均对称表面距离(Average Symmetric Surface Distance, ASD),值得_提的是,HD 和 ASD是合成3D来计算。
(1) Dice 系数
Dice系数(DI)主要衡量两个分割图的相似度,是医学图像分割领域中最主要的 衡量指标,公式表示为:
2TP
(2-1)
DI =
FP + 2TP + FN
Dice系数范围在[0,1]之间,数值越接近于1表示分割结果越好。
(2) Jaccard相似指数
Jaccard相似性系数(JA)表示样本之间的重叠程度,也称为交并比,表示真实结 果和预测结果之间交集与并集的比值,具体公式表示为:
TP
(2-2)
JA =
7 FP + TP + FN
Jaccard相似指数的范围同样也在0~1之间,数值越接近于1表示分割结果与真实标 签的重叠程度越高。
⑶像林度
像素精度(AC)是图像分割中比较简单的指标,主要进行逐像素的比对,正确预 测像素的个数除以总像素,公式如下:
TP
&r =
FP + TP + TN + FN
像素精度的范围在0-1之间,对于二分类任务,数值越接近于1表示目标类和背景 类的综合预测较好。
(4)敏感度
敏感度(SE)表示算法能够正确预测正例的能力,具体公式表示为:
TP
SE =
TP + FN
同样地,敏感度的范围在0〜1之间,其数值越接近1,表示正确预测的比例越高。
(5)耨性
特异性(SP)与敏感度(SE)恰恰相反,表示算法正确预测负类的能力,具体公 式如下:
(2-3)
(2-4)
TN
SP = TN + FP
特异性(SP)的范围在0-1之间,数值越大,表示预测负类的能力越高。
其中,7T,7W,FP,FN,分别表示正类预测正确的数量、负类预测正确的数量、正
(2-5)
类预测错误的数量以及负类预测错误的数量。
(6)豪斯多燥离
豪斯多夫距离(HD)表示预测结果与真实标签之间表面点集的最大的距离度量, 具体公式表示为:
HD = max {咚热)d(sA,S(B)},硝第)d(sB,S(i4))| (2-6)
由于最大豪斯多夫距离指标受噪声点的影响,因此,本文主要使用95%的豪斯多夫 距离值来衡量分割结果,而不是最大值。
(7)平均楓表面距离:
平均对称表面距离(ASD)表示预测结果与真实标签表面点集之间的距离平均值, 具体公式表示为:
“小 _ {^sAes(A)d(SA,S(B)) + Ssbgs(b) d(SB, S⑷)) ASD= IS⑷ | + |S(B)|
豪斯多夫距离(HD)和平均对称表面距离(ASD)衡量了分割模型对于边缘预测 的能力,值越小表示分割结果的边缘越接近真实标签的边缘。
其中,4和B分别表示真实标签和预测结果,S(4)和S(B)表示对应4和B的表面体素 的集合。d(SB,S⑷)=mi卩、||sb-Sa||表示体素勺到集合S⑷的最短欧式距离。同样 地,= mip、||sA - Sb||表示体素去到集合S(B)的最短欧式距离。
sb ws(b)
2.4本章小结
本章主要介绍了基于半监督的医学图像分割相关技术,包括半监督学习策略的设计 以及分割网络模型的改进方法。半监督学习策略主要介绍了一致性学习、深度对抗学习、 伪标签学习以及混合学习方法。半监督分割网络模型的改进与监督学习一致,主要从骨 干网络设计、特征编码结构的设计以及特征融合策略的设计三个方面进行介绍。另外, 在最后一节介绍了本文用到的评价分割结果的指标以及具体的含义和计算方式。
3基于交叉自注意力和特征金字塔的半监督医学图像分割
3.1引言
近年来,基于卷积神经网络的医学图像分割网络取得了巨大的成功,然而,在医学 图像分割中,由于器官的大小以及肿瘤的位置及大小因人而异,因此大多数医学图像分 割都会面临一些问题。第一,主流的卷积神经网络使用标准卷积进行特征提取,由于标 准卷积具有固定的感受野不能高效的提取图像中的全局上下文信息,因此大部分医学图 像网络面临着上下文信息提取不足的问题,虽然使用不同大小的卷积核能提取医学图像 中的上下文信息,但是会造成网络参数量以及计算量的大幅度增加,这不仅会导致模型 训练困难,而且大模型很难应用于低功耗设备。第二,由于特征融合策略能够使得网络 具有更强的特征表达能力,并且主流的卷积神经网络的高低层特征融合主要通过跳跃连 接的方式将编码端低层的细节特征与解码端的高层语义特征进行融合,可以有效解决边 缘细节信息的丢失问题。但是通常编解码之间的特征存在语义差距,直接进行特征融合 会导致信息的不匹配,并且融合效率较低。
为了解决上述问题,本章提出了一种基于自注意力的特征金字塔网络(FPS-Net) 并将其应用于半监督医学图像分割任务。FPS-Net主要使用一致性的训练策略进行半监 督学习,一致性训练策略主要通过教师和学生模型进行协作训练,其一致性学习作为主 流的半监督学习策略可以有效的利用未标注数据。其次,FPS-Net是一个编解码结构, 其编码部分使用本章提出的特征金字塔,在跳跃连接部分使用本章提出的自注意力机制 进行特征融合。本章的主要贡献总结如下:
(1)在网络的编码结构中,设计了一种特征金字塔模块。该模块采用不同深度和空 洞率的卷积核,对输入特征图进行分组并行卷积,其不仅能可以扩大感受野,有效的捕 获多尺度上下文信息,而且可以有效提高网络的特征表达能力。
(2)在跳跃连接阶段,引入交叉自注意力模块。该模块通过动态地聚焦重要部分, 有效选择不同尺度信息,学习空间与通道之间的视觉相关性。将空间域和通道域全局信 息和空间局部信息进行高效的自适应融合,减少复杂背景的影响。
(3)本章在两个公开的医学图像分割数据集上进行实验,实验表明提出的FPS-Net采 用并行卷积的方式,具有高效并行计算能力,能有效提升网络的训练和推理速度,并且 可以自适应的进行特征融合。
3.2算法设计 3.2.1网络结构概述
—►卷积3x3激活ReLU,池化 U>反卷积2x2,卷积3«3 ㊉求和
图3-1 FPS-Net整体结构
Fig. 3-1 The structure of FPS-Net
本章提出了一种基于自注意力的特征金字塔网络(FPS-Net)并将其应用于半监督 医学图像分割。图3-1是半监督学习的整体框架,其主要由一致性训练策略和分割网络 组成。具体地,本章使用基于一致性的均值教师(Mean teacher)阴作为半监督学习的 训练策略,首先将输入数据进行数据增强包括旋转、随机噪声等变换,目的为了使变换 后与未变换后的输出具有一致性,从而通过计算标注数据之间的交叉爛损失(CEloss) 以及未标注数据之间的一致性损失(MSEloss)来进行反向传播。分割网络由学生模型 和教师模型组成,其中,学生模型和教师模型是结构相同的U形分割网络具体结构如图 3-2所示,特别地,教师模型的参数是通过学生模型的指数平均移动(Exponential Moving Average, EMA) 来进行更新。本章的主要创新点在于对分割网络的改进,主要是提 出了特征金字塔模块和交叉注意力模块。
具体来说,FPS-Net分割网络整体呈U形结构,其主要根据U-Net进行改进,在编 码阶段,第一层使用标准卷积,之后所有的卷积层使用本章提出的特征金字塔模块 (Feature pyramid module, FPM)代替,金字塔特征提取模块主要由分组空洞卷积构成 了一个多尺度的轻量型编码结构。在跳跃连接阶段,提出了交叉自注意力模块(Cross Sel&Attention, CSA),目的是为了进行更有效的特征融合,FPS-Net首先将编码阶段的 特征图进行通道间的自注意力机制,然后再进行编码和解码之间的空间自注意力机制。 在解码阶段,在保留上采样(反卷积)的同时将标准卷积替换为特征金字塔模块,最后 的分割头由1X1卷积进行降维。
3.2.2特征金字塔模块
由于医学图像尺度变化较大,标准卷积具有固定的感受野不能高效的提取图像中的 多尺度上下文信息,而且不同大小的卷积核会造成网络参数量的增加,导致模型训练困 难。为了解决上述问题,本章设计的特征金字塔模块先将特征图进行分层,每个层有多 个不同空洞率的3x3卷积核进行分组卷积(如图3-3)。该模块将输入特征图进行不同级 别滤波操作,在扩大感受野的同时可以并行捕获不同尺度的上下文信息,并且大的感受 野对于尺度信息变化较大的图像具有更强的特征表达能力。另外,在保证参数不变的情 况下,将输入特征图进行分组并行卷积可以降低计算量,提高网络的推理速度。
如图3-3所示,为了更好地提取图像中多尺度信息,本章的方法需要进行4次金字 塔分组空洞卷积。每一次将特征图按比例分层,将每一层进行分组空洞卷积。具体方式 如下,第一次当输入特征图有M层时,将其分为4块,每一块的特征图通道数为 C1,C2,C3,C4,其中Cl + C2+C3 + C4 = M。每块分别做空洞率和大小全部相同的卷积运 算,其中卷积核大小固定为3x3,空洞率r = (1,2,3,4)每块依次增加1,并且对每一块特 征图进行分组卷积,分组数G每次以金字塔形式2"增加,例如,G = (2】,22,23,2兮;第 二次,将块数以金字塔形式递减,将其分为三块,同样地,每一块卷积核大小都为3x3, 空洞率r从1开始依次递增。第三次,将其分为两块,最后一次采用组数为24的空洞卷 积。将输入特征图x经过特征金字塔模块得到的输出特征图%(对定义如下:
PGconv(x, Nit Gb rj,
PGconviy^x), Nb Gbri),
PGconv^^x),
其中,PGconv(x, NitGbr^表示为金字塔分组空洞卷积,厶为层数,M为分块数,珂为 空洞率,$为每次卷积运算的分组数,r = [1,2,3,4]表示模块中所有空洞率的集合, G = [2,4,8,16]表示所有分组数的集合,公式中可直接选取7■和G的前N项即可。如公式3- 1所示,首先将输入特征图分为4块进行分组空洞卷积,将每块的输出特征图进行拼接
作为下一次金字塔分组空洞卷积的输入,总共进行了4次类似的操作。从图中和公式可 以看出,特征提取模块总体呈金字塔式,其中分组数量以及空洞率也呈金字塔数增加,
这样的方式将可以提取不同级别的细粒度特征并将多尺度特征聚集于金字塔顶端。
图3-3特征金字塔模块
Fig. 3-3 The feature pyramid module
如果将输入特征图进行相同感受野的卷积运算,将得到的输出作为下一次的输入, 这样的做法不能同时提取多尺度信息,反而前一次使用固定大小的卷积滤波器会影响下 一次的多尺度特征编码。如果同时让不同大小的卷积核去提取特征时又会造成参数量和 计算量的增加。因此,本章的方法在将输入特征图的内部进行分组并行空洞卷积,既能 同时提取多尺度信息,又能在参数量不变的情况下降低计算量。
如图3-4是标准卷积和分组卷积示意图,第一个图是标准卷积计算过程,第二个图 是分组卷积计算过程,将其分为两组。当进行一次卷积时,如果输入和输出特征图数量 固定时,由上图可以看出,简单的将特征图分为两组进行卷积比直接做卷积的计算复杂 度低。显然,将标准卷积替换为金字塔分组卷积时计算量会大大减少。如果对输入特征 图进行一次分组卷积时计算量被表示为:
F(G, K, Cln, C°uJ = (.K2 x Cin x C°ut xHx W)/G (3-2)
其中,F(G)为一次分组卷积的计算量,G为分组卷积的组数,K为卷积核的尺寸,Qn和 址为输入和输出特征图的数量,特征图的尺寸为H x W.可以看出在进行分组卷积时, 分组数G的越大,计算复杂度F(G)越小。
图3-4标准卷积和分组卷积
Fig. 3-4 Standard convolution and Group convolution
本章的方法中分组数,分块数以及空洞率随着网络的深度以金字塔式减少,因为当 网络的层数越深时,特征图之间的相关性越大,应该减少块数和分组数,达到模型推理 速度与信息之间的平衡,使信息的最大程度的保留同时保证参数量的降低。那么,进行 一次金字塔分组空洞卷积时,计算量为:
Ki x C-n x Com x H xW
F(N, G, K, Cin, Cout-) = 乂 —旦 带 (3-3)
其中,F为一次金字塔分组卷积'的计算量。N为按照比例分好的块数,Cin和C。讥为每块 的特征图输入输出通道数(CfnECin,H和W为特征图的高和宽。Gi为每 次卷积的分组数,(Gi€G)。另外,每增加一个空洞率感受野扩大K + QK- l)(r - 1),其 中r为空洞率。显然,由等式3-3可以得出,分组空洞卷积不丢失特征分辨率的情况下 扩大了感受野,并且将特征图并行卷积,降低计算量,可以提高网络的推理速度。
本节设计的特征金字塔模块主要解决医学图像分割任务中器官以及肿瘤尺度信息变 化较大的问题,将输入特征图使用不同的空洞率进行金字塔式分组卷积,可以提高网络 对于多尺度特征的表达能力。此外,并行分组卷积的方式可以提高网络的推理速度。
3.2.3交叉自注意力模块
在医学图像分割任务中由于器官之间的相对位置固定,因此捕捉器官之间的全局信 息至关重要,尤其是肝脏分割、心脏分割等任务。主流的基于卷积神经网络的模型❾知 只能建模局部之间的关系,然而,卷积运算固有的局部性限制了它们在图像中建模长期 语义依赖关系的能力。因此,为了获取器官之间以及逐像素之间的远程依赖关系,本章 提出交叉自注意力模块(CSA),该模块主要用于分割网络中的跳跃连接部分。
众所周知,对称的U形网络中跳跃连接主要作用是将编码阶段的边缘细节信息提供 给解码阶段,但是仅仅在跳跃连接阶段使用拼接或者求和操作使得编码阶段和解码阶段 之间的特征具有一定的语义差距,导致融合效率较低。因此主流的网络在其中加入卷积 操作或者注意力机制来降低编解码之间的语义鸿沟,例如MU-Net网,Attention U-Net网 等。本章的交叉自注意力模块与上述方法不同,如图3-5为CSA的具体结构,受主流的 Transfbrmer结构跑的启发,CSA不仅能够获取远程依赖关系,并且能够有效进行编解码
图3-5交叉自注意力模块
Fig. 3-5 Cross self-attention module
具体地,如图3-5,交叉自注意力(CSA)模块主要通过矩阵运算得到编码特征与 解码特征之间的关系,其主要经过两部分,即通道自注意力和空间交叉注意力。在通道 自注意力部分,首先将编码阶段得到的特征图VEeRc^w进行降维,通过线性变换分别 得到两个特征图QE,KEeRCxN, N = HxW, H和"表示图像的高和宽。接下来通过矩 阵的乘法Qe X (唧,然后将得到的特征经过归一化操作得到通道之间全局关系矩阵 W(c)e7?cxc,最后将得到的通道权重“(c)与特征图%进行矩阵相乘得到通道间的注意 力G4表示为:
Qe x (心)丁
CA(Qe,Ke, Ve~) = softmax( ■=—) x (3-4)
J dk
其中,Qe表示对应编码阶段的査询矩阵,心表示对应编码阶段的键值矩阵,%表示编
码阶段的值矩阵,必表示心的维度,通常情况下,Qe与心的维度相同。通过上述公式 进行计算可以进一步得到原始特征图%的通道间的重要程度,进一步获取通道之间的全 局相关性,通过滤除不重要的通道,有助于增强通道之间的特征表达。
进一步地,为了更好地将编码器更精细的特征提供给解码阶段,接下来将解码之后 的特征图进行空间自注意力机制。同样地,将解码阶段得到的特征图VDeRCxHxW经过线 性变换,从而得到两个特征图QD,KD6RCXN, N = HxW,其中,H和0表示图像的高 和宽。接下来通过矩阵的乘法(QdFxKd,然后将得到的特征图经过归一化操作获得解 码器上空间逐像素之间的全局关系权重W⑸因为编码器主要为解码器提供更 精细的细节特征,因此需要的值矩阵(value)不再是来自解码器,而是来自于编码器 特征经过通道自注意力得到的特征C4,将C4与空间全局关系权重"(s)进行矩阵相乘得 到经过空间交叉自注意力模块作用后的特征,则最终的空间交叉自注意力S4定义为: (Qd)tx 心
SA(QDtKDlCA) = softmaxQ ———)x CA (3-5)
其中,Qd表示对应解码阶段的查询矩阵,心表示对应解码阶段的键值矩阵,C4表 示编码阶段的值矩阵经过通道自注意力机制得到的特征矩阵。然后将SS矩阵通过升维 得到特征图FeRCxHxw。最后,为了进行特征复用得到更丰富的特征,将编码器和解码 器的特征分别进行拼接和求和操作,表示为:
F(c) =(F + VD)㊉% (3-6)
其中,F(c)表示最终得到的特征图,F表示经过空间交叉自注意力的特征图,F(c), G(s)€/?cxhxw,㊉表示拼接操作。厶表示编码阶段的特征,%表示解码阶段的特征。 因此,本章提出的交叉自注意力模块不仅能够解决特征图的远程依赖,获取特征图的全 局相关性,而且通过矩阵运算使得编码器和解码器进行交互,有效的进行特征融合。
3.3实验设计
3.3.1实验数据集以及预处理
为了有效评估本章提出的方法,本章主要对两种不同类型的医学图像数据集进行实 验,即肝脏计算机断层扫描(CT)图像数据集2"、皮肤镜图像2役
肝脏分割CT数据集:在本章的实验中,主要使用肝肿瘤分割挑战(LiTS) “勺作为 实验数据集,其中包含131个标注的CT扫描图像。每个CT图像的大小为512X512, 像素间距从0.55毫米到1毫米不等,切片厚度从0.55 mm到6毫米不等。为了增强肝脏 对比度并消除干扰,截断了所有扫描的强度值到[-200, 250] Hounsfield Unit (HU)范 围。为了提高训练效率,本文将图像大小调整为256X256。在本文的半监督设置中, 随机选择121例作为训练集,其余10例作为测试集,最后对训练集执行随机数据增强, 例如翻转、镜像和旋转。为了更好地进行比较,随机选择训练集中10% (12例)和20% (24例)的病例作为标注数据,其余的用作未标注数据。
皮肤病变分割皮肤镜数据集:皮肤镜图像数据集来自2018年国际皮肤成像合作 (ISIC)皮肤病变分割挑战呻。训练集包含2594个图像,验证集包含100个图像。数 据集具有不同类型的皮肤损伤以及不同的分辨率。为了提高不同模型的计算效率,将所 有图像的大小调整为256X192.类似地,为了执行半监督学习,随机选择训练集中的 10% (259幅图像)和20% (519幅图像),分别用作标注数据,其余用作未标注数据。 在训练阶段,执行在线随机数据增强。
3.3.2实验平台以及超参数设置
实验所有的算法都在一台服务器上实现的,参数为Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz, 40GB RAM, NVIDIA GeForce RTX 3090 GPU, Ubuntu 18.04, and PyTorchl.7。本章选择Adam优化器来进行优化分割模型,初始学习率为1x103 批 次为8,其中未标注数据集批次为4,标注数据批次为4。
3.3.3损失函数
本章提出一个半监督医学图像分割框架,包括半监督训练策略和图像分割网络。半 监督训练策略主要使用主流的均值教师(Mean teacher) [59],分割网络使用编解码结构。 因此,在标注数据上使用监督学习的交叉爛损失(CEloss),在标注和未标注数据上都 进行正则化约束,正则化项为均方误差损失(MSE loss)o交叉爛损失厶$和均方误差损 失S分别定义为:
厶s = -(ylogCy) + (1 - y)log(l - y)) (3-7)
Lr =lly-yll2 (3-8)
其中,y表示标签结果,夕表示分割网络的预测结果。整体的损失函数厶定义为: L = Ls + XLr (3-9)
其中,厶和厶■分别表示监督损失和正则化损失,时间依赖的升温系数;I是监督损失和正 则化损失的加权因子。该加权函数是一个高斯曲线,A = 5e(-5Ci-/)2), ?为训练的轮次。 3.3.4消融实验
本章的主要贡献是对分割网络的改进,主要提出两个模块,分别是特征金字塔模块 (FPM)和交叉注意力模块(CSA)。本章在肝脏数据集(LiTS)和皮肤损伤数据集 (skin lesion)上分别进行了消融实验,为了进行公平的比较,本章使用均值教师 (Mean teacher)作为半监督的训练策略,分别使用U-Net冋和U-Net++阿作为主干网络。 另外,本章将提出的两个模块分别加添加到主干网络U-Net和U-Net++中来证明两个模 块的有效性,并且对于交叉注意力模块的消融实验,本章与主流的自注意力(Nonlocal, Nol)何和双重注意力(Dual attention, DA)冋来进行比较,进一步证明本章提出交叉注 意力的优越性。
表3-1 LiTS肝脏数据集上消融实验的定量分析
Table 3-1 Quantitative analysis of ablation experiment of LiTS liver
LiTS-liver (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled Operations (GFLOPs) Parameters
(M) Model size (MB) DI
(%)
Supervised+U-Net 12/0 65.39 34.52 131.82 8&17
Semi-supervised+U-Net 12/109 65.39 34.52 131.82 92.39
Semi-supervised+U-Net+FPM 12/109 42.24 14.21 54.41 92.89
Semi-supervised+U-Net+ Nol 12/109 71.03 35.22 134.10 92.91
Semi-supervised+U-Net+ DA 12/109 80.53 34.96 133.15 92.93
Semi-supervised+U-Net+ CSA 12/109 80.39 34.91 133.10 93.18
FPS-Net(our) 12/109 57.33 14.65 56.11 93.61
如表3-1所示,在LiTS中利用10%的标注数据集上进行了消融实验,从表中可以 看出,半监督的 U-Net方法(Semi-supervised+U-Net)的 Dice 为 92.39%,相比于 U-Net, 使用本章提出的FPM模块(Semi-supervised+U-Net+FPM) Dice在此基础上增加了 0.5%, 并且值得一提的是使用FPM模块后,计算量、参数量以及模型大小分别提升了 23.15 GFLOPs, 20.31 M以及77.41 MB,是因为特征金字塔模块进行并行分组卷积,大幅度降 低了网络参数量和计算量。另外,单独增加本章提出的CSA模块(Semi-supervised+U- Net+CSA)后,Dice准确率相比于U-Net提升了 0.79%,但是计算量和参数量上升了, 是因为CSA模块进行了多次矩阵的运算。总的来看,本章提出的两个模块在U-Net的 基础上都有一定的性能提升,虽然CSA模块增加了一部分计算量,但是通过FPM模块 的平衡作用,使得最终模型FPS-Net的计算量和参数量分别为57.33 GFLOPs和14.65 M, 并且模型的准确率Dice (93.61%)得到了有效的提升。
表3-2皮肤病变数据集上消融实验的定量分析
Table 3-2 Quantitative analysis of ablation experiment of skin lesion dataset
Skin lesion (20% labeled/ 80% unlabeled)
Method Labeled/Unlabeled Operations (GFLOPs) Parameters
(M) Model size (MB) DI
(%)
Supervised+U-Net++ 519/0 49.95 11.79 45.08 84.36
Semi-supei*vised+U-Net++ 519/2075 49.95 11.79 45.08 85.83
Semi-supervised+U-Net-H- +FPM 519/2075 41.23 7.32 28.11 86.10
Semi-supervised+U-Net++ + CSA 519/2075 63.97 11.90 45.41 86.45
FPS-Net(our) 519/2075 55.28 7.41 28.41 86.58
如表3-2所示,在皮肤损伤数据集(Skinlesion) 20%标注和80%未标注上进行了消 融实验,主要使用U-Net卄严作为主干的分割网络,值得一提的是,将U-Net++除了第 一层之外的所有卷积层替换为FPM模块,并且将CSA模块添加到U-Net++中最远距离 的跳跃连接部分,因为将所有的密集跳跃连接上增加CSA模块后会大幅度增加计算量。 从表3-2可以看出,本章提出的FPM能显著降低模型的计算量和参数量,但是精度并没 有显著增加。但是在增加CSA模块后,虽然模型的计算量和参数量少量的增加,但是 在原始U-Net++的基础上分割精度增加了 2.22%。因此,从实验结果来看本章提出的两 个模块能有效提升皮肤损伤的分割精度。另外,为了更加有效证明提出CSA注意力模 块的有效性,还进行了特征图可视化。其主要将U-Net++每一次跳跃连接的特征图进行 可视化。图3-6为分别使用U-Net++以及本章提出的FPS-Net的特征热图可视化,从可 视化结果得知,本章提出的交叉注意力模型能够更加有效的注意到感兴趣的区域,并且 将目标区域的权重进行增加,通过注意力机制进一步增加了模型的分割精度。
图3-6跳跃连接阶段特征图可视化
Fig. 3-6 Feature heat map visualization of the skip connection stage
总之,本章提出的FPM模块使用金字塔式的分组空洞卷积来进行特征提取,使用 交叉自注意力CSA模块进行特征融合。FPM模块不仅能够获取图像不同尺度的上下文 信息,而且通过分组空洞卷积能够有效降低模型的参数量和计算量。CSA模块不仅能 够获得图像的远程依赖关系,并且通过编码和解码之间的自适应交互使得网络模型能够 注意到正确的目标区域,进一步使注意力机制发挥巨大作用。另外,本文提出的方法能 够有效降低模型的参数量和尺寸。
3.3.5对比艸
为了证明本章提出的FPS-Net的优越性,本章与监督方法U-Ne严],U-Net++网以及4 种主流的半监督方法DAN㈣,MT1591, UA-MT冋,TCSM_V2驹进行比较。通过在LiTS肝脏 数据集以及Skin lesion皮肤病变数据集上进行对比实验。此外,半监督学习的数据集划 分为10%标注数据和90%未标注数据集、20%标注数据和80%未标注数据。
表3-3 LiTS肝脏数据集上利用10%的标记数据不同方法的定量比校,主干网络均为U-Net
Table 3-3 Quantitative comparison with different methods on the LiTS-liver testing set by utilizing 10% labeled data and the backbone network is U-Net.
LiTS-Liver (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled DI (%) Imp. ASD (mm) Imp.
U-Net1281 121/0 96.57 ― 2.19 —
U-Net1281 12/0 88.17 — 6.89 —
DAN㈣ 12/109 92.18 4.01 4.64 2.25
MT1591 12/109 92.39 4.22 3.85 3.04
UA-MT1631 12/109 93.14 4.97 4.22 2.67
TCSM_v21601 12/109 93.22 5.05 3.91 2.98
FPS-Net(our) 12/109 93.61 5.44 3.75 3.14
CT肝脏分割:表3-3展示了在LiTS数据集在10%标注和90%未标注的情况下的肝 脏分割结果,从表中可以看出在相同数据量的情况下,FPS-Net相比于U-Net的Dice值 提高了 5.44%, ASD指标提升了 3.14 mm。Imp列表示相比于监督学习不同指标提高的 幅度大小,在使用标注数据为121个病例时监督的U-Net获得了为96.57%的Dice值, 而本章的方法使用10%的病例得到的准确率最接近于监督的方法。
表3-4 LiTS肝脏数据集上利用20%的标记数据不同方法的定量比较,主干网络均为U-Net
Table 3-4 Quantitative comparison with different methods on the LiTS-liver testing set by utilizing 20% la-
beled data and the backbone network is U-Net
LiTS-Liver (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled DI (%) Imp. ASD (mm) Imp.
U-NetP8] 24/0 89.05 — 6.36 —
DAN㈣ 24/97 93.01 3.96 3.98 2.38
MT1591 24/97 93.42 4.37 3.64 2.72
UA-MT 佝 24/97 93.71 4.66 3.75 2.61
TCSM_v2[w] 24/97 94.30 5.25 3.35 3.01
FPS-Net(our) 24/97 94.59 5.54 3.21 3.15
表3-4展示了 LiTS数据集在20%标注和80%未标注的情况下的肝脏分割结果,从 表中得知,与监督的U-Net方法相比,本章FPS-Net的Dice和ASD指标分别提升了 5.54%、3.15 mm。另外,图3-7展示了利用20%标注的情况下肝脏的分割结果,其中绿 色表示标签,红色表示分割结果,黄色区域表示对应方法的分割结果和真实标签的重叠 部分,因此,较少的绿色和红色区域意味着更好的分割结果。从分割结果可以看出,本 章提出的方法能够获取器官之间的上下文关系,使得毗邻的器官和目标器官具有间隔, 达到更好的分割效果。总的来说,本章提出的特征金字塔和交叉自注意力模块能有效地 解决器官之间的多尺度问题以及像素之间的远程依赖问题。
图3-7不同的方法肝脏分割结果比较
Fig. 3-7 Liver segmentation results using different methods
表3・5皮肤病变数据集上利用10%的标记数据不同方法的定量比较,主干网络均为U・Net++
Table 3-5 Quantitative comparison with different methods on the skin lesion validation set by utilizing 10%
labeled data and the backbone network is U-Net++
Skin lesion (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) SE (%) AC (%) SP(%)
U-Net++[54] 2594/0 87.67 80.06 90.65 93.29 96.78
U-Net++[S4] 259/0 82.57 73.55 88.31 91.01 93.76
DAN阴 259/2335 84.26 75.15 87.23 91.97 95.75
MT1591 259/2335 84.58 76.54 87.25 92.02 95.69
UA-MT 冋 259/2335 84.80 78.02 8&63 91.94 95,82
TCSM_v21601 259/2335 84.71 75.55 90.22 91.92 95.77
FPS-Net(our) 259/2335 84.83 76.79 89.01 94.57 95.20
皮肤病变分割:表3-5展示了在10%标注数据集和90%未标注数据下皮肤损伤的定 量结果比较。从表中可以得出,本章提出的方法FPS-Net获得了最高的DI指标 (84.83%)、最高的JA指标(76.79%)以及最高的AC指标(97.57%)。在使用相同数 据量的情况下,相比于监督的U-Net++, FPS-Net的DI指标提升了 2.26%, JA指标提升 了 3.24%, SE指标提升了 0.7%, AC提升了 3.56%, SP提升了 1.44%。
表3-6展示了在利用20%标注数据的情况下本章方法与主流的方法的定量比较结果。 可以看出,在同样的条件下,本章的方法FPS-Net相比于监督的方法U-Net++, DI指标 提升了 2.22%, JA提升了 2.45%, SE提升了 0.2%, AC提升了 0.6%。相比于基准方法 MT的DI指标高出了 0.75%, JA指标提高了 0.61%。可以看出,本章的方法对于皮肤镜 的成像的数据也同样具有较好的分割结果。另外,图3-8展示了在皮肤病变20%标注数 据的情况下,本章的方法与监督方法U-Net++以及主流的半监督图像分割方法的分割结 果,从分割结果可以看出,本章的方法得到的分割结果更加准确,接近于真实标签。
图3・8不同的方法皮肤病变分割结果
Fig. 3-8 Skin lesion segmentation results using different methods
表3・6皮肤病变数据集上利用20%的标记数据不同方法的定量比较,主干网络均为U-Net卄
Table 3-6 Quantitative comparison with different methods on the skin lesion validation set by utilizing 20%
labeled data and the backbone network is U-Net-H-
Skin lesion (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) SE (%) AC (%) SP(%)
U-Net++ 网 519/0 8436 75.64 88.83 92.15 94.95
DAN㈣ 519/2075 85.41 77.16 89.69 92.16 95.01
MT[59] 519/2075 85.83 77.48 89.97 92.57 94.46
UA-MT ㈣ 519/2075 86.19 7&06 90.94 92.71 94.49
TCSM_v21601 519/2075 86.16 77.98 91.07 92.56 94.26
FPS-Net(our) 519/2075 86.58 78.09 89.03 92.75 94.85
3.4本章小结
本章提岀了基于交叉自注意力和特征金字塔的半监督医学图像分割方法,其半监督 学习策略主要使用了均值教师的一致性学习方法。在分割网络方面,本章提出了两个具 有针对性的模块,即特征金字塔模块和交叉自注意力模块。在编码阶段设计了特征金字 塔模块,其使用了并行分组的空洞卷积来提取图像的多尺度特征,另外,为了加强组间 的信息交流,每一次并行计算的分支数、卷积核的空洞率以及分组数都呈金字塔式的降 低,可以有效应对医学图像中形状位置以及大小多变的情况。在特征融合阶段设计了编 解码的交叉自注意力机制,通过计算解码阶段的空间权重,将其作用到编码阶段,有效 地进行了特征融合,解决了跳跃连接带来的语义信息不匹配,融合效率低的问题。最后, 本章通过在两个不同模态的数据上分别进行了实验,实验结果表明,本章提出的方法能 够提升分割结果。
4基于对抗一致性学习和动态卷积的半监督医学图像分割
4.1引言
近年来,主流的半监督学习方法取得了巨大成功,但仍面临以下挑战。第一,在一 致性学习中抄创,典型的MT方法仅使用不同的扰动获得一致性损失,无法有效利用未 标注数据和标注数据之间的先验关系,而且仅对未标注数据计算像素级的一致性会造成 不确定的预测结果,从而导致对模型的错误指导,分割结果较低。第二,在对抗学习中 [65'671,主流的方法仅使用单个分割网络和单个鉴别器网络从未标注数据中挖掘潜在知识。 但是这两个网络很容易相互误导,导致在训练过程中出现错误累积的问题。第三,半监 督方法通常不适合直接使用监督学习中具有固定参数的分割网络。一方面,固定参数的 分割网络更好地拟合标注数据,但对未标注数据的特征表示较差。另一方面,对于具有 固定参数的网络,不同样本共享相同的模型权重,这很容易导致对小标注数据集的过拟 合,导致对未标注数据生成伪标签的质量较差。同时过拟合问题也会导致参数的高度耦 合,并增加半监督学习中错误累积的风险。
为了解决上述问题,本章提出了一种基于动态卷积的对抗自集成网络(adversarial self-ensembling network, ASE-Net)并将其应用于半监督医学图像分割。ASE-Net是基于 -致性学习提出的,它通过在MT框架中添加两个鉴别器网络,有效地利用了未标注和 标注数据之间的先验关系以及像素级和图像级的一致性。此外,为了防止过拟合问题, 本章提出了一种基于动态卷积的双向注意组件,可以很容易地嵌入到分割网络中,提高 网络的特征表达能力。本章的主要贡献总结如下:
(1)提出了一个对抗一致性的训练策略(adversarial consistency training strategy, ACTS),该策略包含两个鉴别器。第一个鉴别器学习标注数据和未标注数据之间的先 验关系,第二个鉴别器学习分割网络在具有不同数据扰动数据上的图像级一致性。这两 种鉴别器都旨在提高分割网络从标注数据到未标注数据的知识转移能力。
(2)设计了一种基于动态卷积的双向注意力组件(dynamic convolution-based bidirectional attention component, DyB AC ), 它可以充分挖掘样本的先验知识,并根据不同的输 入样本动态调整卷积核的参数。DyBAC可以有效地提高分割网络的特征表达能力,防 止网络过拟合。
(3)本章在三个公开的医学图像分割数据集中广泛验证了所提出的方法的性能,实 验表明,所提出网络的分割结果优于最新的对比方法。值得一提的是,提出的网络是一 个轻量级网络,它比其他网络具有更少的参数,并且具有快速的推理速度。
I f Conv k=3, s=2, p=l
I I EN朋LU
图4-1 ASE-Net整体框架
Fig. 4-1 The framework of the proposed ASE-Net
本章提出了一种对抗自集成网络(ASE-Net)并将其应用于半监督医学图像分割。 如图4-1所示,本章提出的ASE-Net由两个分割网络和两个鉴别器网络组成。分割网络 由学生模型和教师模型组成。学生模型与教师模型具有相同的结构,两者都基于编解码 器结构,不同之处在于前者由损失函数训练,而后者是学生模型权重的指数移动平均值 (EMA)。鉴别器网络由卷积层、提出的基于动态卷积的注意力组件(DyBAC)和全局 平均池化组成,具体结构如图4-1所示。在ASE-Net中,提出了基于MT框架的对抗一 致性训练策略(ACTS),旨在于从未标注数据中挖掘先验知识。该策略使用两个结构 相同的鉴别器来实现不同的目的,第一个鉴别器学习未标注数据和标注数据的分割网络 的预测质量一致性。第二个鉴别器学习相同数据不同扰动下教师和学生网络的图像级预 测一致性。值得一提的是,提出的鉴别器网络的输入是分割结果与原始图像的串联,而 不仅仅是分割结果。目的是通过使用原始图像作为基准来区分分割结果与基准之间的匹 配关系,可以进一步衡量分割结果的质量。在网络结构方面,使用提出的DyBAC替换 了分割网络和鉴别器网络中除第一层外的所有卷积层。DyBAC可以提高网络的特征表 示能力,降低过拟合风险。此外,分割网络和鉴别器交替训练,在推理阶段不需要鉴别 器,这可以避免额外的计算开销。
4.2.2对抗一致性学习
尽管一致性学习和对抗性学习对于半监督图像分割任务具有很大的作用,但它们仍 有一些局限性。第一,常规半监督图像分割网络通常在不同扰动下使用一致性策略来正 则化模型的训练。这些网络通常忽略标注数据和未标注数据之间的先验关系。另外,它 们只计算未标注数据的像素级一致性可能导致预测结果不确定性。第二,基于对抗性学 习的方法过分依赖于单个分割网络和单个鉴别网络,很容易导致误导问题。因此,本章 提出一个新颖的训练策略,如图4-1,在均值教师(Mean teacher, MT)的基础上增加了 两个鉴别器网络,两个鉴别网络是相同的结构但具有不同的功能,鉴别器Di学习网络 对有标注数据和未标注数据输出质量的差异。鉴别器学习未标注数据在扰动和未扰 动下的差异。最终,通过监督损失厶S、一致性损失厶se诚以及对抗损失Lag厶ad”2来鼓 励学生网络对未标注数据生成高质量的预测结果。实际上,和厶se诚的作用是互补的。 一致性损失厶semi是单个样本之间的像素级一致性,它更加关注特征图的细节。本章的 主要用于扰动和未扰动数据之间的图像级一致性,它更关注特征图全局信息。
具体的,本章通过交替训练的方式实现对抗学习,分割网络输入医学图像,输出分 割预测图,本章将分割网络的输出与输入图像拼接在一起输入到鉴别网络中,输出为类 别数,0代表分割结果质量差,1表示分割结果质量好。在训练中,鼓励分割网络对未 标注数据电生成高质量的分割结果,分数接近于1,总之,分割网络想要去混淆鉴别网 络,分割网络目标函数厶(0)s定义为:
z(0)s = 4 (%必)+2(人,”,(九,觴 J+4*1(A (%,必),1)+厶加2(2 (%,》”)」)) (4-1)
鉴别网络想要尽力去区分分割网络的输出,鉴别器Di和D2的目标函数分别定义为: 何(兀"),1) + 厶。i/vl (。1(%,克),0) (4-2)
L (比-"加2 (A( ^ema' ),^) + ^adv2 (2 (%,免),0) (4-3)
其中,厶s(?)为多分类交叉嫡损失和dice损失,厶se加为MSE1OSS,厶adul和厶ad”2为多分类 交叉嫡损失;竝和力为输入数据和对应的标签,和和/ma为输入的未标注数据,带噪声 干扰,允和%分别为有标注数据和无标注数据的分割结果,5Ua为teacher网络的预测结 果;久为加权系数,根据文献刚,这个加权系数呈高斯曲线,逐渐增长,A = §e(-5(i-/)2), /为训练的轮次。
最后,教师模型的参数是学生模型参数的EMA积累,文献⑷呦中已经证明了其有效 性,定义为:
0't = + (1 — a)0t (4-4)
其中,0't为需要更新教师模型的参数,色为学生模型的权重参数,a为平滑系数的 超参数,a决定着教师模型和学生模型的依赖关系,根据文献。^剛以及实际经验,当 a = 0.999时表现最佳。
综上所述,分割网络和鉴别器网络相互博弈。当鉴别器网络不能区分输入时,分割 网络对标注数据、未标注数据以及不同扰动下的数据具有较高的分割质量。这种对抗学 习方法可以有效地利用未标注数据来提高预测伪标签的质量。
4.2.3基于动态卷积的双向注意力组件
过度拟合是医学图像分割任务中的一个常见问题。为了克服这个问题,许多基于半 监督学习的分割网络采用不同的一致性正则化策略,例如数据扰动[5^9\网络参数扰 动冋和特征扰动网。然而,这些特定于扰动的方法仅对特定任务有效,通常很难有效的 为不同任务选择统一的扰动类型,从而导致分割效果欠佳。另外,由于这些半监督方法 仍然使用具有固定卷积核的分割网络,因此它们自身的结构具有潜在的过拟合风险。具 有固定参数值的分割网络只有在有大量像素标注数据任务的前提下才有效,但实际上, 半监督学习只涉及少量标注数据和大量未标注数据。因此,基于标准卷积的半监督分割 网络容易出现过拟合,导致特征表示能力差。
图4-2基于动态卷积的双向注意力的示意图
Fig. 4-2 The structure ofDyABC
为了解决上述问题,本章从数据本身考虑,根据未标注数据的结构信息构造监督信 号。具体来说,本章利用动态卷积自适应地调整每个样本的一组参数来提取其结构信息, 这可以更好地利用先验知识,同时减少网络过拟合,提高特征表示能力。此外,为了克 服医学图像中对比度低和边缘模糊的问题,本章在使用动态卷积之前添加了空间注意力 去增强目标位置的权重。因此,卷积核的最终值由空间注意力和动态卷积共同决定,这 样的双向注意力的方式能进一步提升分割效果。因此,该策略被称为基于动态卷积的双 向注意组件(DyABC)。
具体地,如图4-2基于动态卷积的双向注意力组件示意图,在给定输入数据
xine^HxW,这里C代表输入通道数,HxW代表输入特征图的分辨率。为了增强重要 空间位置的显著性,首先将输入的特征图通过一个简单的空间注意力。具体操作如图4- 2 (a),将输入特征图经过1X1卷积进行降维,然后经过sigmoid激活函数进行归一化, 将得到空间注意力权重逐像素乘输入特征图上,得到特征图jqeRCxHxw。
接下来,本章主要介绍动态卷积的生成过程,首先冷通过全局平均池化得到特征图 x261RCx1x1,然后通过1X1卷积进行降维并且经过归一化激活函数,得到P6RWx1x1,其 中N为提前定义好的卷积核的个数,是一个超参数,可根据具体任务来设定,本章经过 实验验证设置N = 4。然后将得到的系数p分别乘到N个卷积核上,然后将其卷积核的权 重求和,最终仅生成一个卷积核进行卷积运算,这样达到了从N个卷积核中通过动态聚 合的方式得到一个最有代表性的卷积核去进行特征提取,得到的卷积核权重W表示如下:
其中,卩匚表示p中i-th系数,0 < pj < 1, XiLiPi = 1,con%为第i个卷积核的权重。 同时,可以计算标准动态卷积的参数量Qs为:
Qs = X N + N X C[n X C°ut x fc X fc
其中,kxk为卷积核的尺寸,陥和2远表示输入输出特征图的通道数。显然,参数量 是普通卷积的N倍以上。
为了减少参数量,本章的方法将空间相关性和通道相关性完全解耦。具体来说,本 章定义N个深度卷积进行逐通道特征提取,然后进行常规逐点卷积获取通道间的信息。 本章将得到的注意力系数乘到了卷积核上,并且动态选择一个卷积核进行卷积操作。总 的来说,特征图做一次本章提出的动态卷积操作时,参数量Q。表示为:
Qo = CinxN + N xCinxkxk + Cinx Cout (4-7)
本章提出的动态卷积的参数量与标准卷积的参数量的比值r表示为:
CinxN + N xCinxkx k + Cinx Cout
在实际应用中,卷积核大小通常为k = 3, 值大于16,预定义卷积数N通常为4。 显然,本章提出的DyBAC相比于标准卷积和标准动态卷积都大幅度降低了参数量,但 是这样也会提升性能,因为该操作根据每个样本自身的结构信息自适应的调整卷积核的 参数,不同于常规卷积所有样本共享固定卷积核的参数。
4.3实验设计
4.3.1实验数据集以及预处理
为了评估本章提出的方法,主要对三种不同类型的医学图像数据集进行了全面评估, 即肝脏计算机断层扫描(CT)图像数据集(LiTS) [12\皮肤镜图像数据集(Skin lesion) 阴和3D左心房磁共振(MR)扫描图像数据集(Left atrium)冋。
3D左心房数据集注心房(LA)数据集冋来自2018年左心房分割挑战赛,由100 例3D增强的MR图像组成,分辨率为0.625 X 0.625 X0.625 mm3 o遵循文献®肚刈,使用 80个病例进行训练,20个病例进行验证。本章采用了一种常见的数据预处理方案,将 左心房数据随机裁剪为112X112X80。在本实验中,10% (8例)和20% (16例)仍用 作标注数据,其余用作未标注数据。
LiTS数据集与皮肤镜像数据集已经在第三章3.3.1中进行介绍,本章进行的实验数 据处理、选取以及划分与其一致,分别使用训练集的10%和20%作为标注数据,其余作 为未标注数据。
4.3.2实验平台以及超参数设置
实验所有的算法都在一台服务器上实现的,参数为Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz, 40GB RAM, NVIDIA GeForce RTX 3090 GPU, Ubuntu 1&04, and PyTorch 1.7»本章选择Adam优化器来进行优化分割模型,初始学习率为1 x 10-3,使 用动量为0.9的SGD算法来优化鉴别网络,初始学习率为0.01,权重衰减为0.00010 4.3.3损失函数
本章基于一致性学习和对抗学习提出新的半监督学习框架,其损失包括监督损失、 一致性损失、和对抗损失。
监督损失:优化分割网络的监督损失使用了交叉嫡损失和Dice相似性损失,交叉 燔损失公式已经在第三章详细介绍,Dice相似性损失主要解决类别不平衡的现象。Dice 相似性损失⑺说公式表示为:
r 2羽豳
diCe _羽姑+羽加
其中,N表示图像中像素的个数,乩表示分割结果的概率图,5表示标签。
一致性损失:在标注和未标注数据上都进行一致性损失,一致性损失为均方误差损 失(MSEloss)。整体的损失函数厶定义为:
L = Ls + Ldice+2.Lr (4-10)
其中,jL和S分别表示监督损失和正则化损失,时间依赖的升温系数;L是监督损失 和正则化损失的加权因子。该加权函数是一个高斯曲线,;L = 6e(Y(iT)2), /为训练的 轮次。
对抗损失:为了用未标记的数据规范模型学习,本章引入了一种对抗损失,第一个 鉴别器的对抗损失在标注和未标注的集合上执行图像级别的预测一致性。第二个鉴别器 的对抗损失在未标注数据上不同扰动下执行图像级别的一致性。其损失函数公式为交叉 嬌损失。
4.3.4消融实验
本章的主要贡献是提出基于对抗一致性学习策略(ACTS)和基于动态卷积的双向注 意力组件(DyBAC)。本章使用半监督方法MT削作为基准,U-Ne严)、U-Net++冋和V- Ne严刃分别作为分割网络的主干。本章在三个数据集都进行了消融实验,包括LiTS[11\ 皮肤镜图像陶和3D左心房心。值得注意的是,当所提出的ASE-Net用于3D左心房分 割任务时,DyBAC被扩展到3D版本。另外,为了更详细地证明对抗一致性学习策略 (ACTS)的有效性,本节将两个鉴别器拆开进行分别验证。
表4-1 LiTS肝脏数据集上消融实验的定量分析,通过利用10%标注数据
Table 4-1 Quantitative analysis of ablation experiment ofLiTS liver by utilizing 10% labeled data
Method LiTS-liver (10%labeled / 90%unlabeled) Dice (%)
Labeled/Unlabeled MT Di Dz DyBAC
Supervised+U-Net 12/0 8&17
Supervised+U-Net 12/0 V 89.65
Semi-supervised+U-Net 12/109 V 92.11
Semi-supervised+U-Net 12/109 J 92.39
Semi-supervised+U-Net 12/109 J V 93.11
Semi-supervised+U-Net 12/109 V V 93.14
Semi-supervised+U-Net 12/109 V V 93.36
Semi-supervised+U-Net 12/109 V V V 93.39
Semi-supervised+U-Net 12/109 V V V V 94.12
如表4-1所示,消融实验在LiTS肝脏测试集上进行,训练集分为10%标注(12例) 和90%未标注(109例)。使用U-Ne严作为肝脏分割的骨干网络,表4-1中的结果证明 了本章贡献的有效性。通过表4-1得知,与其他半监督方法相比使用单个分割网络和单 个鉴别器的半监督学习方法获得了 92.11%的较低准确率(Dice)。与有监督的U-Net相 比,半监督方法MT得到了改进(Dice提高4.22%),本章提出的ASE-Net提高了 5.95%, 这得益于MT框架,该框架通过教师模型为学生模型提供了伪标签,可以更好地利用未 标注数据,有效地提高网络性能。为了证明所提出的ASE-Net的有效性,本章将所提出 的鉴别器DI、D2和基于动态卷积的双向注意分量(DyBAC)分别添加到MT中进行验 证。可以看出,基于MT框架,分别增加鉴别器DI、D2和DyBAC之后,Dice值分别 增加了 0.72%、0.75%和 0.97%。
另外,如图4-3所示,将标准卷积和本章提出的DyBAC进行特征图可视化。第一 行和第三行是具有标准卷积的U-Net特征热图,第二行和第四行是具有DyBAC的U- Net特征热图。U-Net的编码有五个阶段,除了第一层之外,用本章提出的DyBAC替换 了卷积。如图4-3,从左到右分别表示从浅层到深层的特征图,不同颜色表示不同的空 间注意力权重。可以看出,提出的DyBAC可以有效地改善医学图像中的肝脏分割结果。
图4-3编码阶段逐层特征热图可视化
Fig. 4-3 Visualization of the feature heat maps for each convolutional layer in the encoding phase.
如表4-2所示,消融实验在皮肤病变图像验证集上进行,训练集分为20%标注(519 张图像)和80%未标注(2075张图像)。使用U-Net++阿作为皮肤病变分割的骨干网络, 结果见表4-2。监督U-Net++获得84.36%的Dice,而半监督方法MT获得85.83%的Dice。 可以看出,提出的鉴别器DI、D2和DyBAC的Dice分别比基准MT高0.58%、0.53%和 0.51%o
表4-2皮肤病变数据集上消融实验的定量分析,通过利用20%标注数据
Table 4-2 Quantitative analysis of ablation experiment of skin lesion by utilizing 10% labeled data
Skin lesion (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled MT Di d2 DyBAC Dice (%)
Supervised+U-Net-H- 2594/0 87.67
Supervised+U-Net++ 2594/0 V 88.45
Supervised+U-Net-H- 519/0 84.36
Semi-supervised+U-Net-H- 519/2075 V 85.83
Semi-supervised+U-Net++ 519/2075 V V 86.41
Semi-supervised+U-Net-H- 519/2075 V J 86.36
Semi-su pervised+U-Net-H- 519/2075 V V 86.34
此外,图4-4显示了带标准卷积的U-Net++和带DyBAC的U-Net++两个网络在使用 2594个标注数据的条件下的Dice值和损失函数曲线。为了进行有效的分析,在实验过 程中没有使用任何半监督正则化策略。从图4-4 (a)的曲线中可以看出两个模型的表现 都比较好,准确率在不断地增加;如图44 (b)所示,两个模型在训练集上的损失随着 迭代次数的增加不断的下降;这说明两个模型都可以很好的拟合数据。但是,在验证集 上的loss曲线图4-4所示,随着迭代次数的增加,U-Net++和本章的方法在验证集上的
loss起初都有明显的降低;然后在第40个轮次之后U-Net++出现大幅度震荡的现象难以 收敛,观察验证集上的准确率变化也在不断的下降。在第100轮时,U-Net++明显发生 过拟合。而本章的方法增加了基于动态卷积的双向注意力组件之后损失变化比较平稳, 并且观察验证集的准确率还有上升的趋势。因此,通过实验可以进一步说明,在少量带 有标注数据的情况下,本章提出的基于动态卷积的双向注意力组件能降低过拟合的风险。
(a) (b)
图4-4皮肤镜图像上的学习曲线
Fig. 4-4 The learning curves on the dermoscopy image training
表4-3左心房数据集上消融实验的定量分析,通过利用10%标注数据
Table 4-3 Quantitative analysis of ablation experiment of Left atrium dataset by utilizing 10% labeled data
Left atrium (10%labeled / 90%unlabeled)
Method Labeled/U nlabeled MT Di Di DyBAC Dice (%)
Supervised+V-Net 8/0 79.99
Semi-supervised+V-Net 8/72 V 76.15
Semi-supervised+V-Net 8/72 V 84.24
Semi-supervised+V-Net 8/72 V V 85.82
Semi-supervised+V-Net 8/72 V V 86.17
Semi-supervised+V-Net 8/72 V V 85.75
Semi-supervised+V-Net 8/72 V V V V 87.83
另外,将所提出的ASE-Net扩展到3D MR左心房图像分割任务中。主要使用V- Ne严作为分段网络的主干。消融实验在10%标注和90%未标注的训练集上进行。如表 4-3所示,使用单个分割网络和单个鉴别器的半监督对抗学习方法实现了最低76.15%的 Dice,而监督V-Net实现了 79.99%的Dice, MT方法实现了 84.24%的Dice。相比于MT 方法,本章提出的鉴别器DI、D2和DyBAC分别将Dice值提高了 1.58%、1.93%和 1.51%。
总的来说,鉴别器D1允许网络有效地获得未标注数据和标注数据之间的先验关系。 鉴别器D2使网络能够在相同输入数据的不同扰动下有效地学习图像级的一致性,在 MT的基础上进一步增加了网络的一致性约束。并且提出的DyBAC有效地增强了图像 特征表示的网络,提高了分割的准确性。
4.3.5对比实验
为了验证本章提出的ASE-Net的有效性,主要与监督方法U-Net冋、U-Net++冋和V- 血严)以及7种最先进的半监督方法DAN㈣、MT1叫UA-MT冋、TCSM_v2叭CPS阀、 DTC阿和MC-Net何进行比较,并且在三个公开数据集LiTSW ISIC皮肤镜图像数据集 陶和3D MR左心房数据集呦上进行定量分析。另外,对于半监督图像分割的实验设置, 分别选取了训练集的10%标注和90%未标注数据以及20%标注和80%未标注数据进行 比较实验。
表4"LiTS肝脏数据集上利用10%的标记数据不同方法的定量结果,主干网络为U-Net
Table 4-4 Quantitative results with different methods on the LiTS-liver testing set by utilizing 10% labeled
data. The backbone network is U-Net
LiTS-Liver (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled DI (%) Imp. ASD (mm) Imp.
U-Net1281 121/0 96.57 — 2.19 一
U-Net1281 12/0 88.17 ― 6.89 —
DAN佝 12/109 92.18 4.01 4.64 2.25
MT[W1 12/109 92.39 4.22 3.85 3.04
UA-MT[63] 12/109 93.14 4.97 4.22 2.67
TCSM_v2 ㈣ 12/109 93,22 5.05 3.91 2.98
CPS㈣ 12/109 93.31 5.14 3.83 3.06
DTC [95] 12/109 93.67 5.50 3.64 3.25
MC-Net 网 12/109 93.62 5.45 3.72 3.17
ASE-Net(our) 12/109 94.12 5・95 3.51 3.38
CT肝脏分割:为了公平比较,本章使用U-Net作为半监督肝脏分割任务中所有方 法的骨干网络。表4-4显示了在使用10%标注数据的条件下,不同方法在LiTS肝脏测 试数据集的比较结果。可以看出,在使用相同比例的标注数据的条件下,DAN佝与U- Ne严]相比,Dice提高了 4.01%, ASD提高了 2.25mm。这表明DAN通过使用对抗性训 练方法可以有效地使用未标注数据。与DAN相比,基于MT及其改进的半监督方法UA- MT佝、TCSM_V2画、CPS1621, DTC阅和MC-Net^方法也显示出一些改进,这表明一致 性正则化方法进一步提高了未标注数据的利用效率。本章提出的ASE-Net达到Dice值 为94.12%和ASD为3.51mm。与监督方法U-Net相比,本章的方法ASE-Net对于Dice 提高了 5.95%,对于ASD提高了 3.38mm。与最新的半监督方法MC-Net网相比,本章的 方法对于DI改进了 0.5%,对于ASD提升了 0.21mm。总之,在CT肝脏数据集的分割 结果来看,本章的方法获得了改进。
表4-5 LiTS肝脏数据集上利用20%的标记数据不同方法的定量结果,主干网络为U-Net
Table 4-5 Quantitative results with different methods on the LiTS-liver testing set by utilizing 20% labeled data and the backbone network is U-Net
LiTS-Liver (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled DI (%) Imp. ASD (mm) Imp.
U-Ne 严 24/0 89.05 一 6.36 —
DAN佝 24/97 93.01 3.96 3.98 2.38
MT1591 24/97 93.42 4.37 3.64 2.72
UA-MT1631 24/97 93.71 4.66 3.75 2.61
TCSM_v21601 24/97 94.30 5.25 3.35 3.01
CPS l62} 24/97 94.23 5.18 3.46 2.90
DTC [95] 24/97 94.36 5.31 3.38 2.98
MC-Net 网 24/97 94.58 5.53 3.21 3.15
ASE-Net(our) 24/97 95.07 6.02 3.04 3.32
表4-5显示了肝脏数据集20%标注和80%未标注条件下的实验结果,可以看到,与 监督学习方法相比,提出的ASE-Net在Dice方面提高了 6.02%,在ASD方面提高了 3.32mm。此外,所提出的ASE-Net在20%标注数据条件下的实验结果与使用100%标注 数据的U-Net的实验结果更接近。可以证明,提出的ASE-Net有效地利用了一致性学习 和对抗性学习的优势,可以进一步提高网络的性能。
图4-5使用10%标注数据LiTS测试数据集上的分割结果
Fig. 4-5 Segmentation result of different methods on the LiTS testing set by utilizing 10% labeled data of
train set
此外,图4-5显示了在10%标注数据条件下不同方法的可视化结果,其中绿色区域 表示真实标签,红色区域表示模型分割结果,黄色区域表示分割结果与真实标签的重叠。 因此,较少的绿色和红色区域以及较多的黄色区域表示较好的分割结果。图4-5中的最
后一列显示了 ASE・Net提供的分割结果,很明显,本章的ASE-Net比其他方法提供了更 好的分割结果。
表4-6皮肤病变数据集上利用10%的标记数据不同方法的定量结果,主干网络为U-Net++
Table 4-6 Quantitative results with different methods on the skin lesion validation set by utilizing 10% la
beled data and the backbone network is U-Net-H-
Skin lesion (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) SE (%) AC (%) SP(%)
U-Net++1541 2594/0 87.67 80.06 90.65 93.29 96.78
U-Net++ 网 259/0 82.57 73.55 88.31 91.01 93.76
DAN驹 259/2335 84.26 75.15 87.23 91.97 95.75
MT[59] 259/2335 84.58 76.54 87.25 92.02 95.69
ua-mt[63] 259/2335 84.80 7&02 8&63 91.94 95.82
TCSM_v21601 259/2335 84.71 75.55 90.22 91.92 95.77
CPS 1621 259/2335 84.72 76.81 86.87 91.87 95.42
DTC p5) 259/2335 84.56 76.33 87.19 91.79 95.54
MC-Net 网 259/2335 84.81 76.64 87.41 91.91 95.97
ASE-Net(our) 259/2335 85.19 78.80 90.38 92.40 96.15
表兮7皮肤病变数据集上利用20%的标记数据不同方法的定量结果,主干网络为U・Net卄
Table 4-7 Quantitative results with dififerent methods on the skin lesion validation set by utilizing 20% la
beled data and the backbone network is U-Net++
Skin lesion (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) SE(%) AC (%) SP(%)
U-Net++[54] 519/0 84.36 75.64 8&83 92.15 94.95
DAN㈣ 519/2075 85.41 77.16 89.69 92.16 95.01
MT[59] 519/2075 85.83 77.48 89.97 92.57 94.46
UA-MT[63] 519/2075 86.19 78.06 90.94 92.71 94.49
TCSM_v2[60] 519/2075 86.16 77.98 91.07 92.56 94.26
CPS [62] 519/2075 86.34 78.17 90.57 92.72 94.78
DTC阿 519/2075 85.91 77.63 90.24 92.79 94.40
MC-Ne 严 519/2075 86.37 78.11 90.85 92.61 94.64
ASE-Net(our) 519/2075 87.21 79.25 91.15 93.09 94.52
皮肤病变分割:为了进一步验证提出的ASE-Net,本章在ISIC数据集上进行了充 分的实验。主要使用U-Net++网作为所有半监督方法的骨干网络,还分别使用10%和20% 的标注数据进行定量比较。表4-6显示了在训练集10%标注数据的条件下验证集的分割 结果。与监督方法相比,在使用相同数量的标注数据情况下,本章的方法得到了总体的 提升(DI 为 2.62%, JA 为 5.25%, SE 为 2.07%, AC 为 1.39%, SP 为 2.39%)。与最先 进的半监督方法相比,本章的方法也显示出一些改进。此外,表4-7显示了在20%标注 数据条件下,提出的ASE-Net与其他方法的比较结果,可以看出,提出的方法获得的最 高 DI 为 87.21%, JA 为 79.25%, SE 为 91.15%, AC 为 93.09%。因此,本章的 ASE-Net 可以有效地利用未标注数据和标注数据之间的先验关系,并且基于动态卷积的双向注意
力组件可以使得网络具有更好的特征表达能力。
Ground Truth Supervised DAN MT IA-MT TCSM_v2 CPS DTC MC-Net Ours
图4・6使用20%标注数据皮肤镜像验证数据集上的分割结果
Fig. 4-6 Segmentation result of different methods on the dermoscopy images validation set by utilizing 20%
labeled data
图4-6显示了在皮肤损伤数据集20%标注数据的条件下验证集的一些可视化结果。 可以看到,比较方法仅提供了粗糙的边界,但与其他方法相比,提出的ASE-Net获得了 具有平滑边界的高质量分割结果。主要原因之一是两个额外的鉴别网络通过学习原始图 像与分割结果之间的匹配关系为分割网络产生了额外的监督信息。可以进一步分析,鉴 别器网络对分割结果的边界非常敏感。主要原因是分割网络可以粗略地预测目标的位置, 但对边界的预测不够精细。因此,鉴别器网络通过不断反馈分割网络对边界的预测质量, 使分割网络生成具有平滑边界的高质量分割结果。可以进一步分析,鉴别器网络对分割 结果的边界非常敏感。主要原因是分割网络可以粗略地预测目标的位置,但对边界的预 测不够精细。因此,鉴别器网络通过不断反馈分割网络对边界的预测质量,使分割网络 生成具有平滑边界的高质量分割结果。
3D MR左心房分割:为了证明所提出的ASE-Net在3D医学图像分割任务中的有效 性,本章将ASE-Net扩展到3D左心房任务中进行实验。分别使用10%和20%的标注数 据进行定量比较,实验中的所有比较方法都使用V-Netfl09]作为骨干网络。具体实验结果 见表4-8和表4-9o可以看出,相比于其他半监督方法,提出的ASE-Net在10%标注数 据条件下获得了最高的Dice值87.83%。然而,如表4-9所示,在20%标注数据的情况 下,本章的ASE-Net的Dice值(0.05%)比最新的MC-Net稍低。这是因为MC-Net采 用了双解码器架构,其中明显包含比提出的ASE-Net (3.92M)更多的参数量 (12.35M),来提高分割精度。在图4-7中,本章使用最新方法DTC和MC-Net分别在 10%标注数据和20%标注数据下显示了左心房数据集的分割结果,本章方法的结果更接 近真实标签结果。
表兮8左心房数据集上利用10%的标记数据不同方法的定量结果,主干网络为VNet
Table 4-8 Quantitative results with different methods on the left atrium validation set by utilizing 10% la-
beled data and the backbone network is V-Net
left atrium (10% labeled / 90% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) 95HD (mm) ASD (mm)
X^Net1,091 80/0 91.14 83.82 5.75 1.52
V-Net11091 8/0 79.99 68.12 21.11 5.48
DAN阴 8/72 75.11 63.47 19.03 3.57
MT1591 8/72 84.24 73.26 19.41 2.71
UA-MT 冋 8/72 84.25 73.48 13.84 3.36
TCSM_v2 1601 8/72 84.21 73.19 19.56 3.07
CPS㈣ 8/72 84.09 73.17 22.55 2.41
DTC阿 8/72 86.57 76.55 14.47 3.74
MC-Net 何 8/72 87.71 78.31 9.36 2.18
ASE-Net(our) 8/72 87.83 78.45 9.86 2.17
表牛9左心房数据集上利用20%的标记数据不同方法的定量结果,主干网络为V-Net
Table 4-9 Quantitative results with different methods on tiie left atrium validation set by utilizing 20% labeled data and the backbone network is V-Net
left atrium (20% labeled / 80% unlabeled)
Method Labeled/Unlabeled DI (%) JA(%) 95HD (mm) ASD (mm)
V-Net11091 16/0 86.03 76.06 14.26 3.51
DAN阴 16/64 87.52 7&29 9.01 2.42
mt[59] 16/64 8&42 79.45 13.07 2.73
UA-MT 冋 16/64 8&88 80.21 7.32 2.26
TCSM_v2[60] 16/64 86.26 76.56 9.67 2.35
CPS [62] 16/64 87.87 78.61 12.87 2.16
DTC㈣ 16/64 89.42 80.98 7.32 2.1
MC-Net 何 16/64 90.34 82.48 6.00 1.77
ASE-Net(our) 16/64 90.29 82.76 7.18 1.64
如图4-7中所示,左心房数据集噪声较大、并且左心房周围组织对比度较低,均值 教师(MT)不仅忽略了未标注数据和标注数据之间的关系,并且使用像素级的一致性 会造成大量的不确定性预测,这些错误的预测使得模型学习缓慢,甚至导致错误指导, 从而造成准确率低。而提出的方法ASE-Net通过对抗一致性训练能有效弥补这一缺点, 本文主要在一致性基础上增加两个鉴别器,第一个鉴别器学习未标注数据和标注数据的 先验关系,第二个鉴别器学习不同扰动下的图像级的一致性学习,实现了像素级和图像 级的联合一致性学习;此外,将提出的基于动态卷积双向注意力组件来替代标准卷积, 进一步提升了模型的性能同时也降低了参数量和计算量。
总的来说,提出的ASE-Net可以有效地将一致性和对抗学习相结合,使分割网络对
标注和未标注数据都能进行一致性学习。此外,所设计的两个鉴别器可以以原始图像为 基准有效地衡量分割结果,并将其反馈给分割网络进行学习,最终改善分割结果。
图4-7分别使用10%和20%标注数据在左心房验证数据集上的分割结果
Fig. 4-7 Segmentation result of different methods on the left atrium validation set by utilizing 10% and 20%
labeled data of training set
表4-10不同网络的效率比较
Table 4-10 Comparison of the efficiency of different networks
Method Operations (GFLOPs) Parameters (M) Model size (MB)
U-Ne 严 65.39 34.52 131.82
ASE-Net (U-Net) 9.26 5.18 21.11
U-Net++ 何 49.95 11.79 45.08
ASE-Net (U-Net 卄) 25.34 4.92 19.79
V-Net1,091 46.94 9.44 36.11
ASE-Net (V-Net) 22.97 3.92 15.75
模型尺寸比较:表4-10显示了推理阶段不同网络的参数、浮点运算(FLOPs)和模 型大小的比较。由于提出的鉴别器网络仅在训练阶段使用,因此只测试分割网络的效率。 具体而言,将分割网络的标准卷积除第一层之外全部替换为基于动态卷积的双向注意组 件(DyBAC)o 2D网络的计算量以输入大小为1X256X256的数据进行评估,3D网络 的计算量以输入数据大小为112X112X80进行评估。可以看出,当骨干网采用U-Net冋 时,ASE-Net的参数数量仅为原始U-Net的15.0%。当骨干网络是具有密集跳过连接的 U-Net++网时,ASE-Net的参数数量仅为原始U-Net++的41.7%。当骨干网为V-Ne严时,
ASE-Net的参数数量仅为原始V-Net的41.5%。显然,本章提出的ASE-Net大幅度减少 了参数量和计算量。
表4-11皮肤病变数据集上不同模型对噪声的鲁棒性比较
Table 4-11 Comparison of robustness of dififerent models to noise on skin lesion validation set
Method labeled/unlabeled DI (var=0) DI (var =0.05) DI (var =0.1) DI (var =0.15)
DAN㈣ 519/2075 85.41 84.70 82.60 79.89
MT[59] 519/2075 85.83 84.99 84.37 82.11
UA-MT[S3] 519/2075 86.19 85.79 84.74 82.90
TCSM_V2 画 519/2075 86.16 85.28 84.04 82.73
CPSt62] 519/2075 86.34 85.16 83.73 82.15
DTC阅 519/2075 85.91 84.92 83.75 81.78
MC-Net 何 519/2075 86.37 85.36 85.08 84.86
ASE-Net(our) 519/2075 87.21 86.83 86.11 86.03
鲁棒性证明:表4-11中在皮肤癌数据集上的实验结果,首先在20%标注和80%未 标注的条件下分别训练上述半监督分割模型,对于数据的预处理全部保持不变。为了对 比半监督学习策略对于噪声的鲁棒性,在验证集上添加均值为0,方差分别为0.05, 0.1 以及0.15的高斯噪声,然后计算每个模型在不同高斯噪声作用后的准确率Diceo从表 格结果看,在加入少量的噪声(方差为0.05)扰动之后,每个模型的准确率都有一定程 度上的降低,但是准确率降低的速率不同。
图4-8不同高斯噪声下不同方法在皮肤病变图像的统计结果
Fig. 4-8 Statistical results of dice value on the skin lesion validation set under different Gaussian noises 为了进一步观察模型的抗噪声能力,绘制了不同噪声下模型的准确率曲线,如图4- 8所示,可以观察到方法DAN方法没有利用基于数据扰动的一致性,因此曲线变化比 较明显,对于噪声干扰的鲁棒性较低。在一致性学习方面,UA-MT和MC-Net的下降曲 线相较于其他方法比较缓慢,是因为上述两个方法着重强调了不确定性区域的重要性, 从多次前向推理或多输出相互一致性的方法来缓解MT方法中像素级的一致性造成的错 误预测,提高预测的质量。本章的方法ASE-Net下降比较缓慢,尤其是在方差为0.15的 情况下,本章的方法曲线比较平缓。原因是本章的方法在一致性方法的基础上增加额外 的鉴别器,从图像级和像素级两个方面强调不同扰动的一致性预测,从而加强了网络一 致性的学习,使得模型对于不同扰动的数据具有预测一致性。综上表明,ASE-Net使用 对抗一致性学习在抗噪声方面具有较好的鲁棒性。
4.4本章小结
在本章中,主要提出了基于对抗一致性学习和动态卷积的半监督医学图像分割网络 (ASE-Net)o首先,提出的对抗一致性学习策略(ACTS)有效地结合了对抗学习和一 致性学习,使用对抗训练来最大化一致性学习,这使得网络快速学习未标注和标注数据 之间的先验关系,并进一步挖掘存在于未标注数据中的潜在知识。然后,提出了基于动 态卷积的双向注意力组件(DyBAC)根据输入样本自适应地调整卷积核的参数值,这 不仅有效地防止了过拟合,提高了网络的特征表示能力,而且减少了内存开销。通过在 三个公开的基准数据集上的实验表明,提出的ASE-Net优于最先进的方法,并在网络过 拟合和一致性学习中的不确定性预测两个方面为半监督医学图像分割提供了有效的解决 方案。
5总结与展望
5.1全文工作总结
本文主要研究基于半监督的医学影像语义分割方法,主要解决精确标注数据匮乏的 问题。半监督学习利用少量标注数据和大量未标注数据进行联合学习,解决了监督学严 重依赖于大量的精确标注的数据。在实际情况下,大部分监督学习都是通过小样本进行 训练,因为医学图像标注任务成本昂贵、条件苛刻,这意味着监督学习的分割模型难以 有效的实际应用。本文主要进行半监督的医学图像分割的研究,首先对半监督医学图像 分割进行了详细的介绍,其次提出基于交叉自注意力和特征金字塔的半监督医学图像分 割方法,在上一个工作的基础上,将注意力机制运用到卷积核上其次进行了学习策略的 改进,进一步对上一个工作进行了扩展,主要解决半监督方法分割结果精度差、半监督 学习策略效率低等问题,详细的工作总结如下:
(1)对目前的半监督学习策略以及医学分割网络的改进进行了详细的介绍。针对于 半监督学习策略的研究,主要进行了基本理论的阐述以及主流的半监督学习方法介绍。 基本理论包括平滑性假设、聚类假设以及流形假设三部分。主流的半监督学习方法包括 一致性学习、深度对抗学习、伪标签学习以及最新的混合学习方式。针对于分割网络模 型的研究,主要从骨干网络设计、特征编码结构的设计以及特征融合策略的设计进行介 绍。骨干网络设计主要包括2D分割网络、3D分割网络以及基于Transformer的分割网 络。特征编码结构的设计主要包括不同的卷积方式(轻量型卷积以及动态卷积)。特征 融合策略的设计主要包括跳跃连接融合、多尺度融合以及注意力机制融合。
(2)提出了基于交叉自注意力和特征金字塔的半监督医学图像分割方法,主要解决 医学图像尺度变化较大、分割模型特征融合效率低等问题。该方法主要有两个贡献:第 —个是特征金字塔模块,第二个是交叉自注意力模块。首先,特征金字塔模块采用并行 的分组空洞卷积,其分组数、空洞率以及分组数呈金字塔式。提出的特征金字塔模块在 不仅可以减少网络参数量并且通过利用空洞卷积提取图像的上下文的全局信息,有效解 决由于标准卷积带来的感受野受限的问题。其次,交叉自注意力模块主要应用于跳跃连 接部分,主要通过计算解码阶段的自注意力权重,然后将其作用到编码阶段,获取精细 的边缘,最终提供到解码阶段进行解码恢复。该模块利用了自注意力机制,有效地获取 了图像地远程依赖关系,并且通过编码和解码阶段的矩阵运算,降低了编解码之间的语 义差距,提高了融合效率。最终通过消融实验和对比实验进行有效的验证。实验表明, 提出的特征金字塔模块能够有效应对不同形状、大小的器官和病变组织,提出的交叉自 注意力机制能够有效融合编码阶段的特征,提高网络的特征表达能力。
(3)提出了基于对抗一致性学习和动态卷积的半监督医学图像分割方法,主要解决 主流的半监督一致性训练策略仅仅使用像素级的一致性,对比未标注数据会造成不确定 的预测结果以及造成大量的错误积累等问题。该方法主要有两个贡献:第一,提出了新 颖的一致性训练方法,主要结合了主流的一致性学习和对抗学习,提出的对抗一致性学 习包含两个鉴别器,第一个鉴别器主要学习未标注数据和标注数据之间的差异,第二个 鉴别器主要学习经过不同数据扰动后预测结果的差异。主要通过像素级以及图像级两个 方面进行一致性学习,同时采用了对抗训练使得分割模型和鉴别器模型互相博弈。第二, 提出了基于动态卷积的双向注意力组件,将注意力添加到特征图和卷积核进行两个方向 的注意力机制。基于动态卷积的双向注意力组件主要利用了数据先验知识,从数据本身 出发,利用自身的结构信息生成卷积核以及特征的权重,将其分别作用到卷积核和特征 图上,通过自适应的方式提高数据的利用率以及最终的分割结果。另外,基于动态卷积 的双向注意力组件不仅能够利用先验知识,而且大幅度降低了网络的参数量和计算量。 最后,通过消融实验和对比实验进行验证,实验表明提出的对抗一致性学习策略和基于 动态卷积的双向注意力组件可以有效的利用未标注,提升网络的性能。
5.2未来工作展望
本文主要在半监督医学图像分割领域做了一些研究工作,在半监督的学习策略以及 网络模型作了改进,但是目前基于半监督学习的医学图像分割领域仍然具有改进的地方, 未来的研究工作从以下几个方面开展:
(1)多目标弱监督学习3):目前方向大部分是单目标标注的图像,但是由于多目标 标注比较困难,而且单个目标的标注数据集较多,因此,下一个阶段通过不同的单个目 标的标注中进行迁移学习,通过弱监督以及自监督学习机制,构建一个通过单个目标学 习多目标的分割网络,进一步解决标注困难以及数据资源短缺的问题。
(2)自监督学习[问:通过自监督学习中的对比学习以及自编码网络构建一个全新的 学习机制,该学习机制不仅能够利用其他模态的数据进行自监督学习,而且对于任意的 模型数据都有较强的适应能力,通过在线学习的方法随时利用获取的数据,提升模型的 泛化能力和鲁棒性。
(3)联邦学习机制回):目前大部分的深度学习部署都是在本地的GPU或者单张隐私 的计算资源上,这种方式不利于技术的研究与应用。因此,构建联邦学习机制,将更多 的数据以及资源进行整合,有利于快速部署应用。
参考文献
[1]陆泡尘,胡屹玲•医学影像人工智能的研发应用现状与挑战[JJ.人工智能,2021, (03): 11-19.
[2]Almotairi S, Kareem G, Aouf M, et al. Liver tumor segmentation in CT scans using modified SegNet[JJ. Sensors, 2020,20(5): 1516.
[3]Li W. Automatic segmentation, of liver tumor in CT images with deep convolutional neural networks[J]. Journal of Computer and Communications, 2015,3(11): 146.
[4]杨振,邸拴虎,赵于前,等•基于级联Dense’UNet和图割的肝脏肿瘤自动分割[几电子 与信息学报,2022,44(05):1683-1693・
[5]Lei T, Wang R, Zhang 乂 et al. DefED-Net: Deformable encoder-decoder network for liver and liver tumor segmentation]J]・ IEEE Transactions on Radiation and Plasma Medical Sciences, 2021,6(1): 68-78.
[6]Goyal M, Oakley A, Bansal 匕 et al. Skin lesion segmentation in dermoscopic images with ensemble deep learning methods[J]. IEEE Access, 2019, 8:4171-4181.
[7]Xie 乂 Zhang J, Xia 乂 et al. A mutual bootstrapping model for automated skin lesion segmentation and classi五cati<m[J]・ IEEE Transactions on Medical Imaging, 2020,39(7): 2482- 2493.
[8]Vesal S, Ravikumar N, Maier A. SkinNet: A deep learning framework for skin lesion seg- mentation[C]// Sydney, NSW Australia, IEEE Nuclear Science Symposium and Medical Imaging Conference Proceedings (NSS/MIC), 2018: 1-3.
[9]Havaei M, Davy A, Warde-Farley D, et al. Brain tumor segmentation with deep neural net- works[J]・ Medical Image Analysis, 2017, 35: 18-31.
[10]Wang Chen C5 Ding M, et al. Transbts: Multimodal brain tumor segmentation using transformer[C]// Strasbourg, France, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021: 109-119.
[1 l]Ranjbarzadeh R, Bagherian Kasgari A, Jafarzadeh Ghoushchi S, et al. Brain tumor segmentation based on deep learning and an attention mechanism using MRI multi-modalities brain imagesfJ]. Scientific Reports, 2021,11(1): 1-17.
[12]Shi F, Wang J, Shi J, et al. Review of artificial intelligence techniques in imaging data acquisition, segmentation, and diagnosis for COVID-19[J]. IEEE Reviews in Biomedical Engineering, 2020, 14: 4-15・
[13]Amyar A, Modzelewski R, Li H, et al. Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and segmentatioxi[J]・ Computers in Biology and Medicine, 2020,126: 104037.
[14]Zhou Z H・ A brief introduction to weakly supervised leaming[J]・ National Science Review, 2018, 5(1): 44-53.
[15]Khare A, Tiwary U S. Soft-thresholding for denoising of medical images_a multiresolution approach[J]. International Journal ofWavelets, Multiresolution and Information Processing, 2005,3(04): 477-496.
[16]Moallem P, Razmjooy N. Optimal threshold computing in automatic image thresholding using adaptive particle swarm optimization^]. Journal of Applied Research and Technology, 2012,10(5): 703-712.
[17]Mohsen F M A, Hadhoud M M, Amin K. A new optimization-based image segmentation method by particle swarm optimization[J]. International Journal of Advanced Computer S&ence and Applications, Special Issue on Image Processing and Analysis, 2011.
[18]Zhao S, Wang 匕 HeidariAA, et al. Multilevel ftreshold image segmentation with diffusion association slime mould algorithm and Renyi*s entropy for chronic obstructive pulmonary disease[J]. Computers in Biology and Medicine, 2021,134:104427.
[19]Ahilan A, Manogaran G, Raja C, et al. Segmentation by fractional order darwinian particle swarm optimization based multilevel thresholding and improved lossless prediction based compression algorithm for medical images[J]. IEEE Access, 2019, 7: 89570-89580.
[20]Thakur A, Anand R S. A local statistics based region growing segmentation method for ultrasound medical images[J]. International Journal of Medical and Health Sciences, 2007, 1(10): 564-569.
[21 ] Deng W Xiao W Deng H, et al. MRI brain tumor segmentation with region growing method based on the gradients and variances along and inside of the boundary curve[C]// Yantai, China, IEEE International Conference on Biomedical Engineering and Informatics (BMEI), 2010, 1:393-396.
[22]Wu J, Poehlman S, Noseworthy M D, et al. Texture feature based automated seeded region growing in abdominal MRI segmentation[C]//Sanya, China, IEEE International Conference on Biomedical Engineering and Informatics (BMEI), 2008,2: 263-267,
[23]Gefeng % Xu O, Zhisheng L. Fuzzy clustering application in medical image segmenta- tion[C]// Singapore, IEEE 6th International Conference on Computer Science & Education (ICCSE), 2011:826-829.
[24]Lei T, Liu 匕 Jia X, et al. Automatic fiizzy clustering frmnework for image segmentation[J].
IEEE Transactions on Fuzzy Systems, 2019,28(9): 2078-2092・
[25]Lei T? Jia X,Zhang 乂 et al. Superpixel-based fast fuzzy C-means clustering for color image segmentation[J]. IEEE Transactions on Fuzzy Systems, 20] & 27(9): 1753-1766.
[26]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[JJ. Communications of the ACM, 2017,60(6): 84-90.
[27]Long J3 Shelhamer E,Darrell T. Fully convolutional networks for semantic segmenta- tion[C]//Boston, MA, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 3431-3440.
[28]Ronneberger O? Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentationfCj/ZMunich, Germany, Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2015: 234-241.
[29]Alom M Z, Hasan M, Yakopcic C, et al. Recurrent residual convolutional neural network based on u-net (r2u-net) for medical image segmentation[J]. arXiv preprint arXiv: 1802.06955,2018.
[30]Xiao X, Lian S5 Luo Z, et al. Weighted res-unet for high-quality retina vessel segmenta- tion[C]// Hangzhou, China, IEEE 9th International Conference on Information Technology in Medicine and Education (ITME), 2018: 327-331 ・
[31]Gu Z, Cheng Js Fu H, et al. Ce-net: Context encoder network for 2d medical image segmen- tation[J]. IEEE Transactions on Medical Imaging, 2019,38(10): 2281-2292.
[32]Guan S, KhanAA, Sikdar S, et al. Fully dense UNet for 2-D sparse photoacoustic tomography artifect removal[J]. IEEE Journal of Biomedical and Health Informatics, 2019,24(2): 568-576・
[33]Li X, Chen H, Qi X, et al. H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volxxmes[J], IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674.
[34]Yu F, Koltun V Multi-Scale Context Aggregation by Dilated Convolutions[C]// San Juan, Puerto Rico, International Conference on Learning Representations (ICLR), 2016.
[35]Mehta S, Rastegari M, Caspi A, et al. Espnet: Eflficient spatial pyramid of dilated convolutions for semantic segmentation[C]// Munich, Germany, Proceedings of the European Conference on Computer Vision (ECCV). 2018: 552-568.
[36]Chen 乂 Dai X, Liu M, et al. Dynamic convolution: Attention over convolution kemels[C]// Seattle, WA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020:11030-11039.
[37]Yang B, Bender G, Le Q Y et al. Condconv: Conditionally parameterized convolutions for efficient inference[J]. Advances in Neural Information Processing Systems, 2019,32.
[38]Li D, Hu J, Wang C, et al. Involution: Inverting the inherence of convolution for visual recognition[C]// Nashville, TN, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 12321-12330・
[39]Zhou J, Jampani Y Pi Z, et al. Decoupled dynamic filter networks[C]// Nashville, TN, USA, IEEE/CVF Conference on Computer A^sion and Pattern Recognition (CVPR), 2021: 6647- 6656.
[40]Li C, Zhou A, YaoA ・ Omni-Dimensional Dynamic Convolution[C]//Vlrtual Event, International Conference on Learning Representations (ICLR), 2022・
[41]Han K, Wang 乂 Tian Q, et al. Ghostnet: More features from cheap operations[C]// Seattle, WA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 1580-1589・
[42]Dai J, Qi H, Xiong 乂 et al. Deformable convolutional networks[C]// Venice, Italy, Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017: 764-773.
[43]Szegedy C, Vanhoucke V, Iofife S, et al. Rethinking the inception architecture for computer vision[C]// Las Wgas, Nevada, USA, IEEE Conference on Computer X^sion and Pattern Recognition (CVPR), 2016: 2818-2826.
[44]Zhou T? Fu H, Chen G, et al. Hi-net: hybrid-fusion network for multi-modal MR image synthesis[J]. IEEE Transactions on Medical Imaging, 2020,39(9): 2772-2781.
[45]Valanarasu J MJ, Sindagi V A, Hacihaliloglu I, et aL Kiu-net: Towards accurate segmentation of biomedical images using over-complete representations[C]// Lima, Peru, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2020: 363-373 ・
[46]Yuan L, Chen 乂 Wang T, et al. Tokens-to-token vit: Training vision transformers from scratch on imagenet[C]//Montreal, BC, Canada, IEEE/CVF International Conference on Computer Vision (ICCV)9 2021: 558-567・
[47]Liu Z, Lin X Cao E et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Montreal, BC, Canada, IEEE/CVF International Conference on Computer W sion (ICCV), 2021:10012-10022.
[48]Chen J, Lu 乂 Yu Q, et al. Transunet: Transformers make strong encoders for medical image segmentation[J]. arXiv preprint arXiv:2102.04306,2021.
[4刃 Cao H, Wang X Chen J, et al. Swin-unet: Unet-like pure transformer for medical image segmentation[C]// Tel Aviv, Israel, European Conference on Computer Vision (ECCV),
2023: 205-218.
[50]Gao Y Zhou M, Metaxas D N. UTNet: a hybrid transformer architecture for medical image segmentation[C]// Strasbourg, France, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021: 61-71.
[51]Gao X Zhou M, Liu D, et al. A multi-scale transformer for medical image segmentation: Architectures, model efficiency, and benchmarks[J]. arXiv e-prints, 2022: arXiv: 2203.00131.
[52]Zhou L, Luo Y Deep features fusion with mutual attention transformer for skin lesion di- agnosis[C]//Anchorage? Alaska, USA, IEEE International Conference on Image Processing (ICIP)5 2021:3797-3801.
[53]Hatamizadeh A, Tang Y, Nath V. et al. Unetr: Transformers for 3d medical image segmen- tation[C]// Waikoloa, HI, USA, IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022: 574-584・
[54]Zhou Z? Siddiquee M M R, Tajbakhsh N, et al. Unet++: Redesigning skip connections to exploit multiscale features in image segrnentatioii[J]・ IEEE Transactions on Medical Imaging, 2019, 39(6): 1856-1867.
[55]Huang H, Lin L, Tong R, et al・ Unet 3+: A full-scale connected unet for medical image segmentation[C]// Barcelona, Spain, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020:1055-1059.
[56]Oktay O, Schlemper J, Folgoc L L, et al. Attention u-net: Learning where to look for the pancreas[J]. arXiv preprint arXiv: 1804.03999, 2018.
[57]Wang Z, Zou N, Shen D, et al. non-local u-nets for biomedical image segmentation[C]// New York, USA, Association for the Advancement of Artificial Intelligence (AAAI), 2020, 34(04): 6315-6322.
[58]Seo H, Huang C3 Bassenne M, et al. Modified U-Net (mU-Net) with incorporation of oly ectdependent high level features for improved liver and liver-tumor segmentation in CT im- ages[J], IEEE Transactions on Medical Imaging, 2019,39(5): 1316-1325.
[59]TarvainenA, Vdpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in Neural Information Processing Systems, 2017,30.
[60]Li X, Yu L? Chen H, et al. Transformation-consistent self-ensembling model for semisupervised medical image segmentation]J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32(2): 523-534・
[61]Sohn K, Berthelot D, Carlini N, et at Fixmatch: Simplifying semi-supervised learning with consistency and confidence[J]・ Advances in Neural Information Processing Systems, 2020, 33: 596-60&
[62]Chen X,Yuan X Zeng G, et al. Semi-supervised semantic segmentation with cross pseudo supervision[C]// Nashville, TN, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 2613-2622.
[63]Yu L, Wang S, Li X, et al. Uncertainty-aware self-ensembling model for semi-supervised 3D left atrium segmentation[C]// Shenzhen, China, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2019: 605-613.
[64]Ouali Y Hudelot C, lami M・ Semi-supervised semantic segmentation with cross-consistency training[C]// Seattle, WA? USA, IEEE Conference on Computer "sion and Pattern Recognition (CVPR), 2020: 12674-12684.
[65]Hung W C, Tsai Y H, Liou Y T, et al. Adversarial learning for semi-supervised semantic segmentation[C]// Newcastle, UK, 29th British Machine Vision Conference (BMVC), 2019.
[66]Zhang X Yang L, Chen J, et al. Deep adversarial networks for biomedical image segmentation utilizing unannotated images[C]//Quebec City, QC, Canada, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2017:408-416.
[67]Chen G, Ru J, Zhou 乂 et al. MTANS: Multi-scale mean teacher combined adversarial network with shape-aware embedding for semi-supervised brain lesion segmentation]J]. NeuroImage, 2021? 244: 118568.
[68]Zhu y Zhang Z, Wu C, et al. Improving semantic segmentation via efficient self-training[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.
[69]Feng Z, Zhou Q, Cheng G, et al. Semi-supervised semantic segmentation via dynamic selftraining and classbalanced curriculum[J], arXiv preprint arXiv:2004.08514,2020,1(2): 5.
[70]Shi Yy Zhang J, Ling T, et al. Inconsistency-aware uncertainty estimation for semi-supervised medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2021,41(3): 608-620.
[71]Xiang J, Li Z, Wang W et al. Self-ensembling contrastive learning for semi-supervised medical image segmentation^]. arXiv preprint arXiv:2105.12924,2021.
[72]Hu X, Zeng D, Xu X, et al. Semi-supervised contrastive learning for label-efficient medical image segmentation[C]// Strasbourg, France, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021: 481-490.
[73]You C, Zhou Y9 Zhao R? et al. Simcvd: Simple contrastive voxel-wise representation distillation for semi-supervised medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2022,41(9): 2228-2237.
[74]Li C, Dong L,Dou Q, et al. Self-ensembling co-training framework for semi-supervised covid-19 ct segmentation^ ・ IEEE Journal of Biomedical and Health Informatics, 2021, 25(11):4140-4151.
[75]Wang R Peng J, Pedersoli M, et al. Self-paced and self-consistent co-training for semisupervised image segmentation]J]・ Medical Image Analysis, 2021, 73: 102146.
[76]Li 乂 Chen J, Xie X, et al. Self-loop uncertainty: A novel pseudo-label for semi-supervised medical image segmentation[C]// Lima, Peru, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2020: 614-623.
[77]Liu F, Tian X Chen 乂 et al. ACPL: Anti-curriculum pseudo-labelling for semi-supervised medical image classification[C]// New Orleans, LA, USA, IEEE Conference on Computer Msion and Pattern Recognition (CVPR). 2022: 20697-20706.
[78]Mehrtash A, Wells WM, Tempany C M, et d. Confidence calibration and predictive uncertainty estimation for deep medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2020,39(12): 3868-387&
[79]Wu J, Fan H5 Zhang X, et al. Semi-supervised semantic segmentation via entropy mmimi- zation[C]//Shenzhen? China, IEEE International Conference on Multimedia and Expo (ICME), 2021: 1-6.
[80]He K, Zhang X,Ren S, et al. Deep residual learning for image recognition[C]//Las Vegas, NY USA, IEEE conference on computer vision and pattern recognition (CVPR), 2016:770- 力&
[81]Agrawala A. Learning witii a probabilistic teacher [J]. IEEE Transactions on Information Theory, 1970, 16(4): 373-379・
[82]Fralick S. Learning to recognize patterns without a teacher[J]. IEEE Transactions on Information Theory, 1967,13(1): 57-64.
[83]Portela N M, Cavalcanti GDC, Ren T I. Semi-supervised clustering for MR brain image segmentation]J]. Expert Systems with Applications, 2014,41(4): 1492-1497.
[84]Jaisakthi S M, Chandrabose A, Mirunalini P. Automatic skin lesion segmentation using semi-supervised learning technique[J]. arXiv preprint arXiv: 1703.04301, 2017.
[85]Miller D J, Uyar H. A mixture of experts classifier with learning based on both labelled and unlabelled data[J]. Advances in Neural Information Processing Systems, 1996,9・
[86]Nigam K, McCallum A K, Thran S, et al. Text classification from labeled and xmlabeled
documents using EM[J]. Machine Learning, 2000, 39:103-134.
[87]Xu Z, Jin R, Zhu J, et d. Efficient convex relaxation for transductive support vector ma- chine[J]・ Advances in Neural Information Processing Systems, 2007,20.
[88]Xu Z, Jin R, Zhu J, et al. Adaptive regularization for transductive support vector machine[J]. Advances in Nexiral Information Processing Systems, 2009, 22.
[89]Zhu X5 Ghahramani Z, Lafferty J D. Semi-supervised learning using gaussian fields suid harmonic functions[C]//Cagliari9 Italy, 20th International conference on Machine learning (ICML), 2003: 912-919・
[90]Belkin M, Niyogi P, Sindhwani V Manifold regularization: A geometric framework for learning from labeled and unlabeled examples[J]. Journal of Machine Learning Research, 2006, 7(11).
[91]Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]// Madison, Msconsin, USA, Eleventh Annual Conference on Computational Learning Theory (COLT), 1998: 92-100.
[92]Laine Ss Aila T. Temporal Ensembling for Semi-Supervised Leaming[C]// San Juan, Puerto Rico, International Conference on Learning Representations (ICLR), 2016・
[93]Liu Y, Tian 乂 Chen 乂 et al. Perturbed and strict mean teachers for semi-supervised semantic segmentation[C]//New Orleans, LA, USA, IEEE Conference on Computer Msion and Pattern Recognition (CVPR), 2022: 4258-4267.
[94]Wu 乂 Xu M, Ge Z, et al. Semi-supervised left atrium segmentation with mutual consistency training[C]//Strasbourg? France, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021: 297-306.
[95]Luo X, Chen J, Song T, et aL Semi-supervised medical image segmentation through dualtask consistency [C]// Vancouver, Canada, Association for the Advancement of Artificial Intelligence (AAAI), 2021, 35(10): 8801-8809・
[96]Dolz J5 Desrosiers C, Ayed I B. Teach me to segment with mixed supervision: Confident students become masters[C]//Virtual Event, Information Processing in Medical Imaging: 27th International Conference (IPMI), 2021: 517-529・
[97]Kozinski M, Simon L, June F. An adversarial regularisation for semi-supervised training of structured output neural networks[J]. arXiv preprint arXiv: 1702.02382, 2017.
[98]Peiris H, Chen Z, Egan G, et al. Duo-SegNet: adversarial dual-views for semi-supervised medical image segmentation[C]//Strasbourg5 France, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021:428-43&
[99]Hou J, Ding X, Deng J D. Semi-supervised semantic segmentation of vessel images using leaking perturbations[C]//Waikoloa, HI, USA, IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022: 2625-2634.
[100]Li C, Liu H. Generative Adversarial Semi-Supervised Network for Medical Image Seg- mentation[C]//Nice, France, IEEE 18th International Symposium on Biomedical Imaging (ISBI)? 2021:303-306.
[101]Wu H, Chen G, Wen Z, et al. Collaborative and adversarial learning of focused and dispersive representations for semi-supervised polyp segmentation[C]//Montreal, QC, Canada, IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 3489-3498.
[102]Zeng L L, Gao K, Hu D, et al. SS-TBN: A Semi-Supervised Tri-Branch Network for COVID-19 Screening and Lesion Segmentation^]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[103]Yang L, Zhuo W Qi L, et al. St++: Make self-training work better for semi-supervised semantic segmentation[C]// New Orleans, LA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022: 4268-4277.
[104]Peng J5 Wang P, Desrosiers C, et al. Self-paced contrastive learning for semi-supervised medical image segmentation with meta-labels[J]. Advances in Neural Information Processing Systems, 2021, 34: 16686-16699.
[105]Chaitanya K, Erdil E, Karani N, et al. Contrastive learning of global and local features for medical image segmentation with limited annotations [J], Advances in Neural Information Processing Systems, 2020, 33: 12546-1255&
[106]Berthelot D, Carlini N? Goodfellow I, et al. Mixmatch: A holistic approach to semi-super- vised Ieaming[J]. Advances in Neural Information Processing Systems, 2019, 32.
[107]Sae-Ang B I, Kumwilaisak W, Kaewtrakulpong P. Semi-Supervised Learning for Defect Segmentation with Autoencoder Auxiliary Module [J]. Sensors, 2022, 22(8): 2915.
[108]Ciqek O, Abdulkadir A? Lienkamp S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// Athens, Greece, Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2016: 424-432.
[109]Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]// Stanford, CA, USA, IEEE International Conference on 3D Vision (3DV), 2016: 565-5刀.
[110]Lei T, Zhou W? Zhang 乂 et al. Lightweight v-net for liver segmentation[C]// Barcelona, Spain, IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), 2020: 1379-1383.
[1 ll]Zeng G, Yang X, Li J, et al. 3D U-net with multi-level deep supervision: fully automatic segmentation of proximal femur in 3D MR images[C]//Quebec City, QC, Canada. Machine Learning in Medical Imaging (MLMI), 2017: 274-282.
[112]Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Salt Lake City, UT, USA, IEEE conference on computer vision and pattern recognition (CVPR), 2018: 7132-7141.
[113]Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]//Seattle, WA? USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 11534-11542.
[114]Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Salt Lake City, UT, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 6848-6856.
[115]Ding X, Guo 乂 Ding G, et al. Acnet: Strengthening the kernel skeletons for powerful cnn via asymmetric convolution blocks[C]// Seoul, Korea (South), IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 1911-1920.
[116]Lei T, Sun R, Du X, et al. SGU-Net: Shape-Guided Ultralight Network for Abdominal Image Segmentation[J]. IEEE Journal of Biomedical and Health Infomiatics, 2023.
[117]Han Y, Huang G, Song S, et al. Dynamic neural networks: A survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20215 44(11): 7436-7456.
[118]Li Y, Song L, Chen Y, et al. Learning dynamic routing for semantic segmentation[C]// Seattle, WA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition, (CVPR)? 2020: 8553-8562.
[119]Gu R, Wang G, Song T, et al. CA-Net: Comprehensive attention convolutional neural networks for explainable medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2020? 40(2): 699-711.
[120]Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]// Honolulu, HI, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 2881-2890.
[121]Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[122]Isensee F, Jaeger P F, Kohl S A A? et al. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J]. Nature Methods, 2021, 18(2): 203-211.
[123]Feng S, Zhao H? Shi F, et al. CPFNet: Context pyramid fusion network for medical image
f segmentation[J]. IEEE Transactions on Medical Imaging, 2020,39(10): 3008-3018.
[124]Yeung M, Sala E, SchSnlieb C B, et al. Focus U-Net: A novel dual attention-gated CNN for polyp segmentation during colonoscopy [J]. Computers in Biology and Medicine, 2021, 137: 104815.
[125]Bilic P, Christ P,Li H B, et al. The liver tumor segmentation benchmark (LiTS)[J]・ Medical Image Analysis, 2023, 84: 102680.
[126]CodellaN, Rotemberg V Tschandl P, et al. Skin lesion analysis toward melanoma detection 201& A Challenge Hosted by the International Skin Imaging Collaboration (ISIC)[JJ. arXiv preprint arXiv: 1902.03368,2019.
[127]Jungo A, Reyes M. Assessing reliability and challenges of uncertainty estimations for medical image segmentation[C]//Shenzhen? China, Medical Image Computing and Computer Assisted Intervention (MICCAI), 2019: 48-56.
[128]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]// Long Beach, CA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019:3146-3154.
[129]Xiong Z, Xia Q, Hu Z, et al. A global benchmark of algorithms for segmenting the left atrium from late gadolinium-enhanced cardiac magnetic resonance imaging[J]. Medical Image Analysis, 2021, 67: 101832・
[130]Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks [C]//Salt Lake City, UT, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018:4510-4520.
[131 [Dmitriev, K., & Kaufinan, A. E. Learning multi-class segmentations from single-class datasets [C]// Long Beach, CA, USA, IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 9501-9511.
[132]Liu5 Q., Chen, C.3 Qin, J., et al. Feddg: Federated domain generalization on medical image segmentation via episodic learning in continuous frequency space[C]// Nashville, TN, USA, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021:1013-1023.