目录
摘要 I
Abstract III
目录 V
图目录 VII
表目录 VIII
1 绪论 1
1.1 研究背景与意义 1
1.2 国内外研究现状 3
1.2.1基于无监督域适应的医学影像处理 3
1.2.2基于无源主动域适应的图像处理 5
1.3 本文主要研究工作 6
1.4 本文组织结构 7
2相关研究工作 8
2.1 医学影像处理方法 8
2.1.1医学影像分类 8
2.1.2医学影像分割 9
2.2 无监督域适应方法 12
2.2.1 基于对抗学习的无监督域适应方法 12
2.2.2 基于图像生成的无监督域适应方法 13
2.2.3 基于距离度量的无监督域适应方法 15
2.3 无源主动域适应方法 16
3基于无监督域适应的医学影像分类方法 18
3.1 引言 18
3.2基于无监督域适应的医学影像分类任务 19
3.3基于跨层对齐的无监督域适应医学影像分类算法 20
3.3.1整体网络结构 20
3.3.2特征映射模块 21
V
3.3.3 语义跨层对齐模块 22
3.3.4 训练流程 25
3.4损失函数 27
3.5实验设计和结果分析 28
3.5.1数据集 28
3.5.2实验设置和评价指标 30
3.5.3 实验结果与分析 31
3.6 本章小结 36
4基于无源主动域适应的医学影像分割方法 38
4.1 引言 38
4.2基于无源主动域适应的医学影像分割任务 39
4.3基于块级数据选择的无源主动域适应医学影像分割算法 40
4.3.1整体网络结构 40
4.3.2数据选择模块 41
4.3.3伪标签生成模块 43
4.3.4 训练流程 44
4.4损失函数 47
4.5实验设计和结果分析 49
4.5.1数据集 49
4.5.2实验设置和评价指标 50
4.5.3实验结果分析 51
4.6 本章小结 56
5总结和展望 58
5.1 本文工作总结 58
5.2 未来工作展望 59
参考文献 61
攻读硕士学位期间主要的研究成果 65
致谢 66
VI
图目录
图 1.1 多域数据集的像素分布直方图 2
图 2.1 ResNet 网络中的残差结构[41] 9
图 2.2 DeepLab 系列中的 ASPP 结构 10
图 2.3 U-Net 网络结构[7] 11
图 2.4 U-Net、UNet++ 和 UNet3+ 网络结构对比[9] 11
图2.5 域对抗神经网络(DANN)的结构[18] 13
图 2.6 基于 CycleGAN 的跨模态分割框架[22] 14
图 2.7 基于 MK-MMD 和 JMMD 的深度域适应网络 15
图2.8最小巧妙点探索的无源主动域适应方法(MHPL)37】 17
图 3.1 基于跨层对齐的无监督域适应医学影像分类算法的网络结构 21
图 3.2 卷积映射层的结构 22
图3.3 胸部X射线数据集上Di T D2任务的t-SNE图 36
图3.4皮肤癌检测数据集上Di T D2任务的t-SNE图 36
图 4.1 基于块级数据选择的无源主动域适应医学影像分割算法的网络架构 41
图 4.2 使用不同块大小在前列腺 MRI 数据集上的实验结果 55
图 4.3 使用不同标注预算在前列腺 MRI 数据集上的实验结果 55
图 4.4 眼底数据集上 Di T D3 任务上不同方法的分割结果可视化 56
图 4.5 前列腺数据集上不同方法的分割结果可视化 56
VII
表目录
表 3.1 胸部 X 射线数据集的统计信息 29
表 3.2 胸部 X 射线数据集中每个类别的样本统计信息 29
表 3.3 皮肤癌检测数据集的统计信息 30
表 3.4 皮肤癌检测数据集中每个类别的统计信息 30
表3.5 超参数ai对分类正确率的影响(%) 31
表3.6 超参数a2对分类正确率的影响(%) 32
表3.7 现有UDA方法在胸部X射线数据集上的准确率(%) 33
表3.8现有UDA方法在皮肤癌检测数据集上的准确率(%) 33
表 3.9 损失函数在胸部 X 射线数据集和皮肤癌检测数据集上的消融实验结
果(%) 34
表 3.10 语义跨层对齐模块中关键步骤的消融实验结果(%) 35
表 4.1 眼底图像数据集的统计信息 49
表 4.2 前列腺 MRI 分割数据集的统计信息 49
表 4.3 现有的不同种类的方法在眼底数据集上的分割结果 52
表 4.4 现有的不同种类的方法在前列腺 MRI 数据集上的分割结果 53
表 4.5 样本选择、伪标签生成和知识蒸馏的消融实验结果 53
表 4.6 使用不同网络结构的本文方法在前列腺 MRI 数据集上的分割结果 54
VIII
1绪论
1.1 研究背景与意义
近年来,随着医学影像成像技术的快速发展和普及,医学影像为医生进行疾病诊断 提供了重要的参考信息。医学影像是通过不同成像原理和特制的设备,以非侵入方式获 取病人内部组织结构进而成像得到的 2D 或 3D 图像。医学影像可以帮助医生直接观察 病人体内病变组织,是临床医疗诊断过程中不可或缺的一部分。随着计算机技术的发 展,利用计算机分析医学影像,进而辅助医生诊断受到研究人员和医生的广泛关注。其 中医学影像分类和医学影像分割是医学影像辅助诊断的关键步骤。
随着深度学习技术在计算机视觉各个领域取得成功,基于深度学习技术的医学影像 分类和分割技术也取得了令人瞩目的成就。对于图像分类任务,Google在2021年推出 了 AI皮肤病检测APP,该APP使用基于Inception-V4模型[]的深度学习系统,能够准 确检测 26 种皮肤病, top-3 准确率高达 90%,媲美专业皮肤科医生。至于医学分割任务 研究人员目前已经提出来许多经典的深度学习模型,如FCN[2]模型,DeepLab系列[3-6]模 型、UNet系列[7-9]模型,这些模型在医学分割任务中取得了优异的成绩,其设计理念为 后续许多分割任务的研究奠定了基础。
虽然基于深度学习的医学影像处理技术已经取得了令人振奋的成绩。但是传统的 深度学习方法假设模型训练的数据集和测试集符合独立同分布假设假设,然而在临床应 用中,由于成像设备、成像方式和受试人群的不同,不同中心采集的数据之间存在分布 差异,这一现象被称为域偏移,其中每个医疗中心采集的数据组成一个域。域偏移问题 导致在一个医疗中心上训练的模型在另一个中心上的性能下降。具体而言,在医学影像 中,不同域间数据分布差异主要表现为亮度、噪声、像素、颜色等分布差异,其中部分 差异可以通过统计方法直观地显示出来。图1.1展示了四个多域数据集中每个域中图像 的像素分布直方图,其中多域的肺病[10-11]、眼球[12-14]和前列腺[15-16]数据集由不同中心公 开的数据集组成,多域的皮肤癌检测数据集由公开数据集HAM10000[17]根据性别划分 得到。从图1.1(a)、1.1 (c)和1.1 (d)可以发现,来自不同医疗中心的数据的像素分布差异 十分显著,从图1.1 (b)可以发现,不同受试人群虽然没有不同中心的分布差异显著,但
是仍然有较强分布差异。这些分布差异严重影响了基于深度学习的医学影像分类与分割 技术在临床中的应用。
图1.1多域数据集的像素分布直方图
为了解决域偏移问题,研究人员提出了域适应方法。域适应方法旨在消除域偏移问 题,利用源域数据提升模型在目标域上的精度。除此之外,相比于自然图像,医学影像 还面临两个独特的问题:(1)获取大规模、高精度、有标注的医学影像数据十分困难。 医学影像数据需要有丰富临床经验的专科医生进行标注,在整个标注过程中,不但费时 费力,而且很难得到足够资金用于建设数据集。(2)医学影像包含患者隐私,隐私保护 条例导致共享医学影像数据十分困难。相比于自然图像,医学影像包含患者的隐私,医 疗中心将医学影像数据传输给第三方时需要承担信息泄露的法律风险。
针对医学影像技术在临床应用中所面临的标记困难、域偏移和隐私保护等问题,探 索如何在保护数据隐私的情况下,解决域偏移问题,利用源域数据提高模型在少量标注 或无标注数据的目标域上的性能,已成为当前的一个研究热点。基于以上研究背景,本 文展开了基于无监督域适应的医学影像分类算法的研究与设计。本研究的意义在于,在 不需要目标域数据的标签的情况下,利用源域的数据、标签和目标域的数据解决域偏移 问题,提升模型在目标域上的分类效果,推进深度学习技术在医学影像分类任务中的落 地应用。
此外,本文还展开了基于无源主动域适应的医学影像分割算法的研究与设计。本研 究的意义在于,在保护源域数据隐私的情况下,解决域偏移问题,利用源域上预训练的 模型、目标域上在预算内的少量标注数据和大量无标注数据训练目标域上的模型,使模 型分割效果达到基本的医用水平。
1.2 国内外研究现状
无监督域适应一直是当前研究的热点,所以学术界有许多基于无监督域适应的医学 影像处理方法。而无源主动域适应在 2022 年 4 月刚被提出来,研究刚起步,目前还没 有相关的医学影像研究工作,只有少量与自然图像处理相关的工作。基于上述背景,本 节先介绍基于无监督域适应的医学影像处理方法的研究现状,然后介绍自然图像上基于 无源主动域适应的图像处理方法的研究现状。
1.2.1基于无监督域适应的医学影像处理
基于无监督域适应的医学影像处理方法假设源域和目标域的数据之间存在分布差 异,且目标域数据没有标签。在训练过程中,设计域适应算法消除域偏移的影响,利用 源域中的数据、标签和目标域中的数据,在无标注的目标域上训练得到一个高精度的模 型。按照消除域偏移的原理,主流的研究方法可以分为以下三类:(1)基于对抗学习的 无监督域适应医学影像处理方法。(2)基于图像生成的无监督域适应医学影像处理方 法。(3)基于距离度量的无监督域适应医学影像处理方法。除这些主流方法外,还有一 些其他的研究方法,如基于自训练的方法和基于集成学习的方法。
(1)基于对抗学习的无监督域适应医学影像处理方法。该类方法引入对抗学习中的 生成对抗思想,将模型中的特征提取器作为生成器,并引入一个域判别器来判断特征属 于哪个域,通过对抗训练的方式,使特征提取器输出跨领域的域不变特征,在测试时 将目标域上提取的域不变特征输入使用域不变特征训练的分类器进行分类,从而消除域 偏移带来的影响,提升模型在目标域上的精度。该类方法的典型代表是 Ganin 等人[18]在 2016年提出的域对抗神经网络(DANN)。基于该网络,Kamnitsas等人[19]提出了一种
3 脑损伤多连接对抗网络,它同时训练了域判别器和分割网络。该网络不仅对抗训练模型 的最后几层,也对抗训练网络的前几层,有效地减小了域偏移对模型的影响。 Wang 等 人[20]引入平滑度损失,提出了一个基于 DANN 的眼底图像分割框架,该框架可以强制 网络在相邻区域进行相同的预测。
(2)基于图像生成的无监督域适应医学影像处理方法。该类方法也借鉴了对抗学习 的思想,但与上述方法不同,这类方法主要使用CycleGAN[21 ]将源域数据转换为保留语 义信息但包含目标域风格的伪目标域数据,然后使用这些拥有标签的伪目标域数据训练 模型。使用这些伪目标域数据训练的模型能够很好的适应目标域数据的分布,在目标域 上有较好的表现。因此,这类方法不仅能应用于分类任务,也可应用于分割任务。这类 方法的代表作是Cai等人[22]提出的基于CycleGAN的跨模态分割框架。该框架通过引入 语义一致性损失来确保源域上的图像和伪目标域数据之间的解剖结构一致性,并在私有 的 MR/CT 数据集上证明了其有效。
(3)基于距离度量的无监督域适应医学影像处理方法。该类方法不需要修改网络结 构,在损失函数中加入距离度量损失来最小化两个域的数据在高维特征空间中的域间 分布差异,对齐两个域的数据在高维空间中的特征分布,从而得到域不变特征。利用域 不变特征进行推理,从而消除域偏移造成的影响,提升模型在目标域上的精度。这类 方法中最经典的方法是 Long 等人[23]在 2015 年提出的 DAN 方法,该方法使用多核最 大均值差异(Multi-Kernel Maximum Mean Discrepancy, MK-MMD)对神经网络的最后 几层特征进行对齐,消除了域间分布差异,这影响了许多后来的优秀工作,如 JAN[24] CAN[25]等。除了 MK-MMD外,一些其他的测量分布距离的函数也经常被用在这类方法 中,如CFD(CF Distance)[26]度量函数,JS散度[27]、KL散度[28]、希尔伯特-施密特独立 性系数[29]和沃瑟斯坦距离[30]等。
除了上述三类主流的研究方法外,还有一些其他的研究方法。基于自训练的方 法[31-32]使用 K-Means 生成目标域数据的伪标签来训练模型,以提高模型在目标域上的 准确率;基于集成学习的方法[33-34]先使用源域数据训练学生模型,然后使用滑动平均更 新方法得到教师模型,最后将两种增强方式处理后的目标域数据分别输入学生模型和教 师模型,并使用一致性损失函数约束两个模型的输出结果,从而消除域间分布差异。
1.2.2基于无源主动域适应的图像处理
无源主动域适应的方法在无监督域适应方法的基础上考虑源域数据的隐私问题,它 假设在训练过程中无法获得源域数据,只能获得源域上预训练好的模型。此外,对目标 域的约束也被放宽,假设目标域上在预算范围内有少量标注的数据。该类方法旨在预算 内,使用源域上预训练的模型和目标域上的数据,在目标域上训练一个高精度模型。因 此,基于无源主动域适应的图像处理方法有两个关键点:(1)在训练过程中,如何在不 将源域数据共享给目标域情况下,解决域偏移问题,将源域上预训练模型中蕴含的先验 知识迁移到目标域的模型中,提升模型在目标域上的精度。(2)在目标域上,在预算内 选择哪些数据进行标注,用于训练模型可以最大限度提升地模型的精度。下面将针对这 两个关键点介绍目前国内外的研究现状。
(1) 针对将预训练模型中蕴含的知识迁移到目标域上这一关键点,现有的方法都是 基于距离约束。该类方法主要有两种具体实现方式,一种是先收集目标域数据经过源域 上的预训练模型和目标域上的模型提取的结构信息,然后使用距离函数约束这两个结 构信息,从而将知识迁移到目标域上的模型中。如Li等人[35]提出一种局部特征转移策 略,在该策略中,通过KNN构建不同的簇,然后使用一张图保存簇内包含的结构信息, 然后将目标域数据分别输入预训练模型和训练模型,使用欧氏距约束两个簇结构相似 Kothandaraman等人[36]则使用注意力模块对预训练模型提出的目标域特征进行重构,然 后最小化重构特征与训练模型提取特征之间的欧氏距离。另一种方法如 Wang 等人[37] 使用蒸馏函数约束目标域上模型的输出与预训练模型的输出一致,从而减少预测概率的 差异,使用预训练模型中蕴含的先验知识指导目标域上的模型训练,从而提升模型的精 度。
(2) 针对样本选择这一关键点,现有的方法主要从样本的不确定性进行考虑,每次 都选择预测结果不确定性高的处于模型决策边界的难训练样本进行标注,通过确定难训 练的样本的标签来确定模型的决策边界,从而提升模型的精度。如Li等人[35]使用目标 域数据预测的概率熵表示样本的不确定性。Wang等人hl结合样本周围不同类型样本的 频率熵和样本与周围样本的欧氏距离来衡量样本的亲和力,本质上是使用亲和力表示 不确定性。样本的亲和力越高,样本的频率熵越大,与周围样本的欧氏距离越小,说明 样本处在类别较为混杂的决策边界上,是不确定性大的难分样本。而 Kothandaraman 等
5
人[36]则使用目标域上的样本经过模型预测的属于每个类别的概率的熵值表示不确定性, 熵值越大说明样本被分成每个类别的概率越接近,该样本也就越难被正确分类,确定该 样本的标签可促进模型决策边界的确定。
1.3 本文主要研究工作
本文对基于无监督域适应的医学影像分类和基于无源主动域适应的医学影像分割 展开研究。首先,通过统计实验,指出医学影像中的域间分布差异主要是影像中亮度 噪声、像素和色彩等分布的差异。其次,为了解决影像标注困难、域偏移以及域偏移导 致的语义错位问题,对基于无监督域适应的医学影像分类方法展开研究。最后进一步考 虑深度学习技术在临床应用中面临的数据隐私保护问题,对基于无源主动域适应医学影 像分割方法展开研究。
本文的研究工作具体如下:
1.统计多个多域数据集的像素统计直方图,指出不同域间的医学影像数据存在亮 度、噪声、像素和颜色等分布差异。
2.基于无监督域适应的医学影像分类方法研究。
首先,指出域偏移问题导致了分类任务中的语义错位问题,即同一层次的语义信息 分布在模型中从不同层网络提取的语义特征中。这个问题使得在对齐同层特征过程中 错误对齐不同层次的语义信息,造成负迁移的情况,影响模型的精度。为了解决域偏移 和语义错位问题,提出一种基于跨层对齐的无监督域适应医学影像分类算法,该算法利 用注意机制自动捕获每对源域和目标域的语义特征的匹配度,结合匹配度对齐分散在模 型各层输出中相同层次的语义信息,从而实现精确的域分布对齐,消除源域和目标域的 域间分布差异。此外,引入信息熵损失优化模型,提高了模型在目标域上的泛化能力 该算法在训练过程中不需要使用目标域上的标签,有效缓解了影像标注困难的问题。
3.基于无源主动域适应的医学影像分割方法研究。
首先,指出目前基于无源主动域适应的分割方法中样本选择策略仅仅是从分类任务 中延伸出来的,忽略了医学影像分割任务中边缘分割困难的特点。在此基础上,提出了 一种基于块级数据选择的无源主动域适应医学影像分割算法。算法中的块级数据选择策 略首先将图像划分为不同的块,对块内像素点的预测概率熵进行聚合,得到该块的不确
6
定性;计算块内像素类别的基尼系数,表示该块在分割边缘处的程度;计算多个预测结 果的方差,表示抗干扰性;并结合这三种特性来选择块进行人工标注。此外,算法中的 动态阈值伪标签策略保留了部分像素的伪标签来训练模型,可以有效利用无标签数据中 蕴含的信息。最后,算法中的模型蒸馏损失将预训练模型中蕴含的源域知识迁移到目标 域,提高模型在目标域上的精度。
1.4 本文组织结构
本文共有五章,每章的具体内容如下:
第一章绪论部分,主要介绍研究的背景和意义,当前基于域适应的医学影像处理技 术的国内外研究现状。最后再介绍本文的主要工作和文章组织架构。
第二章主要介绍本文的相关研究工作,先介绍了医学影像分类和分割的主流深度学 习方法,然后介绍了无监督域自适应的主流研究方向,包括基于对抗学习的无监督域自 适应、基于图像生成的无监督域自适应和基于距离度量的无监督域适应。最后介绍了无 源主动域适应在图像处理上的相关工作。
第三章主要介绍本文提出的基于跨层对齐的无监督域适应医学影像分类算法。首先 介绍了无监督域自适应医学影像分类的定义和难点,以及目前的解决方案和本文提出方 法的贡献点。然后从整体网络结构、各模块的功能和结构、训练过程、损失函数等方面 介绍本文提出的算法。最后介绍验证算法有效性的实验。详细介绍了数据集、实验设置 和评价指标,从与其他方法的比较、超参数的确定、消融实验和分类结果的定性分析这 四个方面验证提出算法的有效性。
第四章主要介绍本文提出的基于块级数据选择的无源主动域适应医学影像分割算 法。首先介绍了无源主动域适应下医学影像分割任务的定义、难点、针对难点提出解决 方法及优势。然后从模型框架出发,介绍了网络模块的功能和结构、算法的训练流程 损失函数等方面。最后介绍验证算法有效性的实验、使用的数据集、实验设置和评价指 标。本章从五个方面验证了算法的有效性:从与现有方法对比、消融实验、不同网络结 构上的精度、不同预算下的分割结果和分割结果的定性分析。
第五章是总结与展望。主要回顾本文的研究工作,指出当前研究工作的不足之处 并展望了未来的研究内容。
7
2相关研究工作
本文主要研究基于无监督域适应的医学影像分类方法,以及由此延伸出的基于无源 主动域适应的医学影像分割方法。为更好地理解以上两个研究,本章将从医学影像处理 方法、无监督域适应方法和无源主动域适应方法三个方面介绍一些相关研究工作。
2.1医学影像处理方法
近年来,由于基于卷积神经网络的深度学习技术在图像视觉任务中取得优异成绩 因此更多的研究人员也在医学影像处理任务中应用深度学习技术,包括医学影像分类和 医学影像分类。本节将详细介绍这两个任务中应用的深度学习技术。
2.1.1 医学影像分类
影像分类是医学影像处理的重要研究方向之一。随着 AlexNet 在 2013 年夺得 Ima- geNet 分类任务的冠军,更多的研究人员正在尝试使用深度卷积网络促进医学影像分类 的发展。本节将从经典网络结构和应用两个方面介绍。
在 AlexNet 掀起卷积神经网络浪潮的两年后, Google 提出了经典的 Inception 系 列[1,38-40] 神经网络。在 AlexNet 网络中,全连接层占用了大部分的参数,这将导致过拟 合。因此, Inception-V1 [38]使用全局平均池化代替最后的全连接层,以加快模型的推理能 力。此外,设计的Inception模块,将不同卷积核获得的不同尺度的特征进行聚合,有效提 高了模型的特征提取能力。Inception-V2[39]在V1的基础上,引入批正则化(BatchNorm), 可有效解决数据的内部斜变量偏移问题。Inception-V3[4°]将V2中的5*5卷积核拆成3*3 卷积核,可以有效地降低大量模型的参数,减少模型过拟合。在Inception-V4[1]中,作者 使用残差连接连接不同的 Inception 模块,以加速网络训练,提升模型精度。
随着 Inception 系列在各个任务上大放异彩,学者们认为随着模型深度的加深,模 型的准确率越高。但 He 在 2016 年表示,由于网络层数的增加,网络中会出现梯度消 失和梯度爆炸的现象,这都会影像模型的性能。为了克服层数增加所导致的梯度消失问 题,他提出了经典的残差神经网络(Residual Neural Networks, ResNet)41】。ResNet中最
8
基础的残差学习结构如图2.1所示,利用该结构可以把Block原有的输出由F(x)替换成 F(x) + x,经过该替换后,梯度由F(x)改为F(x) + 1,与之前相比,更改后的梯度加1, 避免梯度出现F (x) = 0的情况,解决了梯度消失的问题。此外,作者使用全局平均池 化层替换全连接层,降低了分类器输入特征的维度。得益于残差结构的先进性, ResNet 在 2015 年取得 ImageNet 上分类任务的冠军。
图 2.1 ResNet 网络中的残差结构[41]
上述经典模型和设计思想已被广泛应用于医学影像分类任务中。Cheng等人[42]在 ResNet中引入注意力机制,提出了 ResGANet网络。与ResNet中的残差块相比,Res- GANet使用模块化的群体注意力块(Group Attention Block),在通道和空间两个维度 捕获医学影像特征之间的依赖关系。此外,ResGANet网络的参数比原始ResNet减少 1.51-3.47倍,可直接用于下游医学影像分类任务中。该模型在皮肤检测数据集上的准确 率达到81.33%,在私有的COVID19-CT数据集上的AUC达到0.82。
Sarwinda等人[43]利用ResNet网络研究了结直肠癌检测的深度学习方法。该方法首 先从数据集中随机采样部分数据,然后利用Grayscale和CLAHE采样数据进行预处理, 将预处理后的数据输入ResNet网络中,最后得到预测结果。作者发现,在三个不同划 分测试集上,ResNet50在结直肠癌检测任务中比ResNet18准确性更高,鲁棒性更强。
2.1.2 医学影像分割
卷积神经网络以其优异的特征提取和特征表达能力被广泛应用于医学影像分割任 务中。本节总结了现有的经典研究成果,并根据网络结构特点,将其分为全卷积网络 (FCN)2]系列、跳跃连接的U-Net[7]系列和生成对抗网络(GAN)[44]系列。下面分别详细 介绍每个系列的研究工作。
不同于分类网络,FCN使用解码器上采样最后一个卷积层输出的特征,并使其恢
复到与输入图像一致的大小,然后逐个分类像素,并为每个像素生成预测结果。但是 全卷积网络没有考虑相邻像素之间的关系,导致上采样的结果相对模糊,对图像的细 节不敏感,分割的结果不够精细。为了解决这些问题,Google团队提出了 DeepLab系 列[3-6]网络。DeepLabVl网络⑶首先引入空洞卷积和全连接条件随机场,其中空洞卷积 用于解决编码过程中的信息丢失问题,全连接条件随机场用于捕获像素间的局部结构 信息。相较于DeepLabVl,DeepLabV2[4]首先引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)结构,该结构在指定的网络层输出的特征上使用不同扩张率 的空间卷积,以此来解决不同检测目标大小不同的问题。如图2.2所示,DeepLabV3[5]进 一步改进 ASPP 结构,采用全局池化捕获全局信息,并将 ASPP 中尺寸 3*3,空洞大小 为 24 的卷积替换成 1*1 的卷积,以解决膨胀率增大导致卷积核有效权重减少的问题 DeepLabV3+⑹在DeepLabV3的基础上,增加一个解码器模块来修复物体边缘信息,同 时在 ASAP 和解码器模块中引入深度可分离卷积来提高模型的推理速度。
Atrous Spatial
Pyramid Pooling
■ lxl Conv
(b) DeepLabV3 中 的 ASPP 结构 [5]
图 2.2 DeepLab 系列中的 ASPP 结构
在 FCN 的基础上, Ronneberger 等人设计了一个用于生物医学影像的 U-Net 网络[7], 如图2.3所示,它参考类似SegNet[45啲自编码结构,舍弃FCN中简单的上采样操作,使 用跳跃连接将解码器中上采样的结果与编码器中相同分辨率的特征相连在一起,并输入 到解码器的下一个子模块中。这种结构可以同时结合低层次和高层次信息,提高模型的 分割精度。
Zhou 等人[8]认为,在不同数据集下, U-Net 网络的最优深度是不同的,为了获得每 个任务下对应的最优网络深度,需要进行大量的实验,效率十分低下。此外,跳跃连接 仅融合相同尺度的特征,不够灵活。因此,作者提出 UNet++ 网络结构,与 U-Net 网络结 构有相比, UNet++ 网络结构有如下改进:(1)集成共享相同编码器但深度不同的 U-Net
10
3x3, ReLU -► copy and crop f max pool 2x2 4 up-conv 2x2
♦ conv lxl
网络,通过监督学习搜索网络的最优深度。(2)设计了一种新的跳跃连接,可以聚合不 同尺度的特征,更加灵活。(3)利用剪枝技术提髙UNet++的推理速度。Huang等人[9]指 出 UNet++ 虽然名义上利用了多尺度信息,但是本质上依然是短连接,没有很好的融合 多尺度信息。因此,作者提出UNet3+网络结构,从图2.4中可以发现,UNet3+使用全 尺度跳跃连接捕获细粒度和粗粒度的语义信息,充分利用多尺度特征,同时具有更少的 参数。
图 2.4 U-Net 、UNet++ 和 UNet3+ 网络结构对比[9]
因为GAN模型[44]在计算机视觉和自然语言处理领域的出色表现,在医学影像分割 任务上同样有相关研究。Xue等人[46]提出了 一种以U-Net结构为生成器的分割对抗网 络SegAN[46]用于医学影像分割,相比于U-Net网络,该网络能够有效解决图像中像素 类别不平衡的问题。在此基础上,Conte等人[47]利用基于GAN的pix2pixRAD模型合成 [] MRI 数据中缺失的序列,最终实验表明利用 GAN 生成的图像可以协助训练深度学习模 型。Cheng等人[48]利用GAN的思想提出CRFLS模型,该模型对样本重加权,对标签进 行校正,提高了人工分割标签的图像质量,进一步提高了脑瘤分割的准确性。
2.2无监督域适应方法
近几年,在医学影像处理领域,无监督域适应方法引起了研究人员的关注,因为它 解决域偏移问题,利用源域数据、标签和目标域的数据在无标注的目标域上训练一个高 性能的模型。该方法既降低了数据标注的代价,又提升了模型在目标域上的精度[49-51] 下面将根据解决域偏移的原理来详细介绍主流的研究方法。
2.2.1基于对抗学习的无监督域适应方法
这类方法引入对抗学习中生成对抗的思想,设计一个独特的 CNN 模型来学习跨领 域的域不变特征。大多数模型是基于域对抗神经网络(Domain Adversarial Neural Network, DANN)结构[18]设计的,如图2.5所示,该结构在传统的监督学习模型结构中添 加一个域判别器用来判断特征属于哪个域,特征提取器被当成一个生成器来提取域判别 器无法确定的特征。最后利用生成对抗的思想训练网络模型,训练完毕后,特征提取器 可提取域不变特征。然后利用域不变特征进行预测,从而消除域偏移造成的影响。基于 此, Kamnitsas 等人[19]提出了一种多链路对抗网络,该网络同时输出多个层次的域不变 特征,融合这些特征用于脑损伤分割。 Javanmardi 等人[52]基于 DANN 网络结构,也提 出了一种眼血管分割模型,并在DRIVE[53]和STARE[54]数据集上进行了实验,证明了该 方法的有效性,并在 MICCAI 2018 视网膜眼底青光眼挑战赛中取得了最好的成绩。
虽然上述方法已经有效缓解域偏移问题,提高了模型在目标域的性能,但这些方法 忽略了特定任务的特性。因此 Yan 等人[55]引入 Canny 边缘检测器,解决了不同成像设 备导致模型在目标边缘处分割差的问题,提高了模型在目标边缘处分割的精度。在飞利 浦、西门子和 GE 三个独立 MR 供应商设备采集的图像上取得了良好的分割效果。 Yang 等人[56]认为,只考虑全局特征会忽略局部特征的分布差异,为此,在 Faster RCNN 框 架[57]上提出一种基于生成对抗学习的病灶检测算法,该算法不仅考虑全局特征,还能从 ROI 区域提取局部特征,并从局部和全局两个尺度生成域不变特征。 []
*7 打1为切 R ^S_Ly^>
”昇 ” IZ> ” 列 class label y U f label predictor Gy(-; 3y)
图2.5域对抗神经网络(DANN)的结构问
基于对抗学习的无监督域适应方法相比于其他方法,可广泛应用在不同任务上,且 无需人为设计距离度量函数。但是,该类方法也有如下缺点:(1)鲁棒性差。该类方法 的效果非常依赖于特定假设,只有当数据集分布符合协变量偏移的假设时,才能取得较 好的效果。(2)数据利用率较低。该类方法需要更多的数据才能取得好的效果,在数据 量少的场景下,效果不如基于距离度量的方法。(3)无法处理回归任务。在回归任务中 特征离散且弥漫分布在整个特征空间中,即使判别器被成功欺骗,依然无法保证两个域 的特征按照相同的标签被拉进。
2.2.2基于图像生成的无监督域适应方法
基于图像生成方法的原理是生成保留原始语义信息且具有目标域风格的伪目标域 数据,然后用生成的数据训练模型。首先使用解码器将源域数据映射到目标域,获取保 留语义信息但具有目标域风格的伪目标域数据,然后使用解码器将伪目标域数据映射回 源域,得到重建的源域数据,然后使用循环一致性损失限制原始源域数据与重建源域数 据之间的距离,保证在转换过程中不丢失语义信息,最后使用伪目标域数据训练模型 训练后的模型可适应目标域数据分布。
基于上述原理,Cai等人[22]提出了一个如图2.6所示的基于CycleGANi2】]的跨模态分 割框架,该框架考虑到医学影像切片中包含的诊断信息,在图片转换过程中引入形状一 致性损失,以确保转换后的模型能够完全保留诊断信息,并在多个分割网络结构和公开 乳房X光数据集上验证了该框架的有效性。Wollmann等人[58]则是在分类任务上提出一 []
种基于CycleGAN的乳腺癌分类的无监督域适应方法,他们首先使用CycleGAN将源域 中的WSIs图像转换到目标域,然后使用一个DenseNet网络对数据中的ROI区域图像 进行分类。
与上述将不同医疗中心看作不同域不同,Manakov等人[59]从医学影像噪声角度,将 高噪声的光学相干层析成像看成源域,将低噪声的光学相干层析成像图像作为目标域 设计了一种基于CycleGAN的无监督域适应方法,将源域的髙噪声图像转换为目标域的 低噪声图像,并训练出目标域的髙精度模型。在此基础上,Zhang等人[60]提出了一种新 的噪声适应生成对抗网络(NAGAN)。在该网络中,有两个判别器,其中一个判别器强 制转换的数据在目标域中具有相同的噪声,第二个判别器强制要求转换的数据保留原始 语义信息。
基于图像生成的无监督域适应方法相比于其他方法,可解释性更强,可以通过观察 真实的和合成的目标域数据之间的差异来直观判断当前方法是否较好地学到了从源域 到目标域上映射。该类方法也存在如下缺点:(1)模型难训练。该方法引入生成对抗模 型合成新的数据,由于生成对抗模型本身难训练,合成髙质量样本的难度大大增加。(2) 模型鲁棒性差。该方法的精度依赖合成数据的质量,而生成对抗网络容易产生分布随机 的图像,影响模型的精度。(3)在小样本数据集上效果差。需要大量的源域数据和目标 域数据才能合成髙质量的数据,所以,当目标域数据量较少时,合成数据的质量较差 模型的精度也较差。
14
2.2.3基于距离度量的无监督域适应方法
学习域不变特征来消除域偏移的影响是无监督域适应方法中最广泛使用的思想。除 了使用生成对抗的方法学习外,也可以通过分布度量函数约束两个域的高维特征之间的 距离来实现。
Tzeng等人⑹]使用最大均值差异(MMD)作为度量函数,该函数将两个域的特征 映射到再现核希尔伯特空间(Reproducing Kernel Hilbert Spaces,RKHS)中,然后计算 两个域的特征从零阶到无限阶矩距离的平均值,两个域分布差异越大该值越大,两个域 分布差异越小该值越小,当两个域分布相等时,该值为零。随后, Long 等人进一步提出 如图2.7所示的多核最大均值差异[23]和联合最大均值差异(JMMD)[62],其中MK-MMD 采用均值嵌入的多核优化选择方法,进一步缩小域间分布差异, JMMD 不仅对齐数据分 布,还对齐数据和标签的联合分布。与 Long 等人不同, Sun 等人[63]提出 Deep CORAL 方法,该方法对齐域间特征的二阶统计量,即对齐域间特征的均值和协方差矩阵。
图 2.7 基于 MK-MMD 和 JMMD 的深度域适应网络
虽然上述方法在一定程度上解决了域偏移问题,但是这些方法都是为分类任务开 发的。近些年,受沃瑟斯坦距离启发,Wu和Zhang等人[26 ]提出了一种新的用于医学影 像分割任务的 CFD 测量函数,并在此基础上提出了一种跨模态的无监督域自适应心脏 分割算法。该算法结合了一阶统计量和 CFD 在高维空间中两个域之间的距离,利用从 U-Net 网络中提取的域不变特征解决域偏移问题,并在多个私有 CT 和 MR 数据集上验 证了其有效性。
除了上述度量函数外,在无监督域适应中还有一些其他度量函数,如JS散度、KL 散度、希尔伯特-施密特独立性系数和沃瑟斯坦距离等,这些函数都可以用来测量两个 分布之间的差异。
基于距离度量的无监督域适应的方法相比于其他方法,训练简单,在小数据集上依
15
然可以取得较好的效果。但是,该类方法也存在缺点。该类方法需要人工设计距离度量 函数,当两个域的数据结构复杂,分布差异大时,设计的度量函数很难有效拉进两个域 的分布,这将影响模型在目标域上的精度。
2.3 无源主动域适应方法
近年来,无监督域适应方法在分类、分割和检测任务中取得了显著的成就。这些方 法在训练过程中需要同时使用源域和目标域的数据,然而,出于隐私保护的考虑,现实 中并不总是允许在不同医疗中心(域)之间共享医学影像数据,因此研究人员提出无源 主动域适应方法。该方法假设在训练过程中无法获得源域数据,目标域上有少量标注的 数据。利用源域上预训练模型中蕴含的先验知识和目标域上的数据,训练一个在目标域 上精度髙的模型。
由于无源主动域适应今年刚被研究人员提出来,相关的研究工作很少。截止到本文 完成,仅在自然图像任务上有少数相关研究工作,下面将详细介绍这些工作。
对于无源主动域适应方法,最重要的的是选择样本标注和知识迁移oWang等人hl认 为,在选择样本时,应考虑样本与周围样本的关系,因此他们从样本与周围其他样本的 亲和性和多样性两个方面来制定样本选择策略。其中一个样本的亲和性取决于该样本周 围不同类别频率的熵和该样本与周围样本之间的平均距离,多样性则反映在每次只有周 围样本不被选择时才选择该样本。知识迁移则体现在两方面,一方面使用 KL 散度约束 目标域上模型和预训练模型的输出一致,从而将先验知识迁移到目标域上的模型中,另 一方面使用预训练模型的预测结果计算样本的亲和性和多样性,作者表示,这样做可以 在不使用源域数据的情况下充分利用预训练模型中蕴含的知识。最后,使用熵损失函数 降低模型在目标域上的噪声。整个方法的框架如图2.8所示。
Li等人[35]引入KNN技术提出一种新的样本选择策略,该策略使用样本预测概率的 熵表示样本的不确定性。使用 KNN 将样本划分成不同的簇,每次选择不确定性大并处 于簇边缘的样本。对于未被人工标注的样本,作者生成熵低于某个阈值的样本的伪标 签,使用伪标签训练模型。除此之外,作者提出局部保存转移策略,该策略通过KNN 构建不同的簇,最大化簇内数据的交互信息,保留每个簇中包含的结构信息,然后使用 损失函数约束两者的语义相似度,将信息从源域迁移到目标域。
16
不同于上述只能应用于分类任务的方法,Kothandaraman等人[36]提出了无源主动域 适应方法SALAD,可同时应用在分类、分割和检测任务。对于样本选择部分,该方法 综合样本的可迁移性和不确定性制定样本选择策略。该策略使用样本经过源域上预训练 模型计算的梯度的二范数表示可迁移性,使用样本经过目标域训练模型预测概率的熵值 表示不确定性,每次选择可迁移性大、不确定性大的样本给专业人员标注。对于知识迁 移部分,该方法使用注意力模块重构目标域数据经过预训练模型提取的特征,然后计算 重构特征和训练模型提取的特征之间的欧氏距离,最后最小化该距离将源域知识迁移到 目标域中。
除上述无源主动域适应的方法外, Xie 等人[64]提出了一个适用于图像分割任务的主 动域适应(Activate Domain Adaptation, ADA)方法,该方法根据像素的不确定和临近 像素的混杂度选择像素标注,并做了无源主动域适应下的相关对比实验。
17
3基于无监督域适应的医学影像分类方法
3.1引言
目前深度学习技术广泛应用于医学影像分类任务,在某些医学场景中已达到专业医 生的水平,但是在临床应用中仍然面临着一些问题。一方面,由于医学影像数据标注困 难,每个医疗中心积累大量无标注的影像数据。另一方面,由于不同医疗中心(域)采 集的数据存在分布差异,一个医疗中心(源域)上训练的模型在另一个医疗中心(目标 域)上的性能将会下降。因此,消除域间分布差异的影响,利用源域上丰富的标注数据 提升目标域上模型的精度,可有效促进深度学习技术在医学影像分类的临床应用。
为了解决上述问题,研究人员提出了基于无监督域适应(Unsupervised Domain Adaptation, UDA)的医学影像分类方法。其中基于距离度量的方法以操作简单、扩展性强 等优点成为当前研究的主流。该类方法使用分布距离度量函数对齐模型中同一层网络提 取的源域和目标域特征,约束两者间的分布距离,减少域间分布差异,从而减少模型在 目标域上的的泛化误差,提髙模型在目标域上的分类精度。其中常用的分布距离度量函 数有最大均值差异(MMD)、Wasserstein距离等。
虽然基于距离对齐的方法取得了一些成效,但它们都是基于模型中每个网络层在 两个域上提取的语义特征包含相同层次的语义信息这一假设。具体来说,这些方法只对 齐模型中同一层网络提取的两个域的语义特征。已有研究表明[65-66],在分类任务中,由 于域偏移问题的存在,相同层次的语义信息分散在模型各层输出中。在这种情况下,对 齐模型中同一层网络提取的特征,会错配不同层次的语义信息,导致模型的泛化能力受 限,造成负迁移的问题。
针对上述问题,本文从跨层对齐的角度出发,解决语义错位问题,进一步减少域间 分布差异。本文首先使用动态注意力机制计算每一对跨层语义特征的匹配度,然后在跨 层对齐模块中结合匹配度,对齐分散在模型中不同网络层输出的源域和目标域的相同层 次语义信息,有效减少域间分布差异,提升模型在目标域上的准确率。最后,在训练阶 段加入信息熵损失提髙模型在目标域上的泛化性。
本章的具体安排如下,本章在3.2节中介绍了基于无监督域适应的医学影像分类任
18
务的定义、难点、目前的解决方法和本章方法的优点。3.3 节详细介绍了本章提出算法 的整体网络结构、关键模块和训练流程。3.4 节介绍了优化模型的损失函数。在 3.5 节介 绍使用公开数据集制作的多域数据集、实验设置和评价指标以及实验结果与分析。最后 在 3.6 节中对本章工作进行总结。
3.2基于无监督域适应的医学影像分类任务
如前言所述,基于无监督域适应的的医学图象分类任务是目前研究的热点,一方面 有效解决源域和目标域的域偏移问题,提升目标域上模型的精度;另一方面不使用目标 域上的标签,降低医学影像标注的成本。本节将分别从基于无监督域适应的医学影像分 类任务的定义、难点、目前的解决方法和本章算法的贡献点四个方面进行详细介绍。
基于无监督域适应的医学影像分类任务的定义:用 S = {(xis,yis)}in=s1 表示源域数据
其中xS表示第i个数据,ns表示源域数据个数,ys表示数据xS的标签。用T = {(xt)}n= 1 表示目标域数据,其中xt表示第i个数据,nt表示目标域数据个数。假设两个域数据 分布不同,但拥有相同的标签空间K = {1,2,...,K}。该任务的目标:在模型训练过程 中,设计合适的算法,使用源域上数据、标签以及目标域数据,训练出一个在目标域上 分类精度高的模型 M。
基于无监督域自适应的医学影像分类任务的核心难点是如何减小两个域之间的数 据分布差异。由于两个域的数据之间存在域偏移,源域上训练的模型在目标域上的精度 将会降低。数据集构建完成后,一般无法直接改变两个域的数据分布,但是可以使用神 经网络将两个域的数据映射到相同的特征空间中,通过减小两域数据在高维空间的分布 差异,来保证源域数据训练的分类器在目标域上也有很好的分类效果。
为了解决这一难点,研究人员提出了许多方法,其中基于距离度量的方法可以在模 型中对同一层网络中提取的源域和目标域的语义特征进行对齐,从而减少两域之间数据 分布的差异。最近的研究表明[65-66],域间分布差异会产生语义错位问题,即相同层次的 语义信息分布在模型中不同网络层提取的语义特征中。在这种情况下,基于距离度量的 传统做法会错误匹配语义信息,给模型迁移带来负收益。
针对上述问题,本章提出一个基于跨层对齐的无监督域适应医学影像分类算法。该 算法的贡献点主要如下:
19
(1) 跨层对齐模型中各层输出的语义特征。首先收集卷积神经网络中不同网络层提 取的源域和目标域语义特征,然后使用分布距离度量函数分别对齐每对源域和目标域特 征。通过上述操作,对齐分散在不同特征中的相同层次的语义信息,解决语义错位问题 进一步减少域间分布差异,提升模型在目标域上的精度。
(2) 引入注意力机制自动捕获每个跨层语义特征对之间的匹配度。由于同层次的语 义信息在不同网络层提取的语义特征中所占的比例不同,每对特征之间的匹配程度也不 同。因此,本文使用注意力机制自动捕获每对语义特征之间的匹配度,并使用得到的匹 配度加权每对特征之间的分布距离,从而自动调整每对特征对减少域间分布差异的贡 献。
(3) 使用信息熵损失降低模型在目标域上的泛化误差。为了进一步提升模型在目标 域上的泛化性,本文算法使用信息熵损失降低模型在目标域上的噪声,从而提升模型在 目标域上的泛化性能。
3.3基于跨层对齐的无监督域适应医学影像分类算法
3.3.1 整体网络结构
本章提出的基于跨层对齐的无监督域适应医学影像分类算法的网络结构如图3.1所 示。该分类网络主要分为五个部分。
(1) 特征提取器G。特征提取器是微改的ResNet50网络,由4组瓶颈块组成,每个 瓶颈块的输出是包含语义信息的三维语义特征。在训练过程中,先将源域和目标域数据 同时输入特征提取器中,然后收集后三个瓶颈块提取的三维语义特征,将收集的特征输 入卷积映射层中用于后续使用。
(2) 特征压缩器F。特征压缩器是一个全连接层,其输入是特征提取器中最后一个 瓶颈块的输出经过flatten操作后的一维特征。特征压缩器有两个作用,一个作用是压缩 特征特征提取器的特征,使特征映射到更高维的特征空间,便于分类器分类。另一个作 用是通过压缩特征,减少后续生成目标域数据的伪标签的计算量。
(3) 分类器C。分类器是一个全连接层,接收特征压缩器的输出作为输入,对每张 图像进行分类。
(4) 卷积映射层。卷积映射层用于将不同大小的三维语义特征映射到相同大小,用
20
于后续进行语义跨层对齐。其主要由一个适应平均池化层和一个残差块组成,详细结构 和功能将在 3.3.2 节中介绍。
(5)语义跨层对齐模块。语义跨层对齐模块是本文的核心贡献点,其主要包含三个 计算步骤,分别是使用注意力机制计算每对语义特征之间的匹配度、跨层对齐源域和目 标域语义特征和生成目标域数据的伪标签。语义跨层对齐模块的详细介绍参见 3.3.3 节。
3.3.2 特征映射模块
语义跨层对齐模块在对齐每对语义特征时,需要计算每对特征之间的距离,这就需 要所有的语义特征具有相同的大小。因此,在本章算法中设计了特征映射模块,该模块 的作用是为语义跨层对齐模块准备数据,具体而言,其接收特征提取器中后三个瓶颈块 在源域和目标域数据集上提取的三维语义特征,然后将这些三维语义特征映射到相同大 小。在具体操作中,为了避免引入噪声,特征映射模块将所有特征映射到最小的三维语 义特征大小。
特征映射模块的功能主要由两组卷积映射层来实现,如图3.2所示,每个卷积映射 层主要由一个适应平均池化层和一个残差连接组成。其中适应平均池化层将任意长宽的 三维语义特征映射到相同大小的长度和宽度,避免针对每个大小的特征都设计不同的网 络结构,减少网络的复杂度。残差连接用于将任意深度的三维语义特征映射到相同大小 的深度。
在训练过程中,特征映射模块接收源域数据 xs 和目标域数据 xt 经过特征提取器得 到的两组三维语义特征 os = {ors}rR=1 和 ot = {otr}rR=1, 其中 os 由源域图像 xs 提取得到 21
/k
图3.2 卷积映射层的结构
ot由目标域图像xt提取得到,R表示收集的层数。因为本文收集特征提取器后三个瓶 颈块的输出,所以R = 3。这里之所以对后三个瓶颈块的输出进行跨层对齐,是因为已 有研究表明[23],对齐深层次的特征有利于解决域偏移问题。然后使用卷积映射层将这两 组语义特征映射到相同维度,计算公式如3.1所示。
lrs = Ptrs(ors), lrt = P ttr(otr), r = 1, 2, ..., R (3.1)
式中Pts = {Pt}r=1和Pts = {Pt}r=1分别为源域和目标域的两组卷积映射层,ir和ir 分别表示源域特征or和目标域特征or经过第r个卷积映射层得到的映射特征。
3.3.3 语义跨层对齐模块
语义跨层对齐模块接收特征映射模块输出的映射特征作为输入,然后使用多核最大 均值差异对齐每对源域和目标域特征,解决语义错位问题,更好的减少域间分布差异 提升模型在目标域上的精度。整个过程主要包括三个步骤:使用注意力机制计算每对语 义特征之间的匹配度、跨层对齐源域和目标域语义特征和生成目标域数据的伪标签。下 面将详细介绍这三个步骤。
3.3.3.1 使用注意力机制计算匹配度
该步骤主要是使用注意力机制自动捕获跨层语义特征对之间的匹配度。在引言中已 经指出,源域和目标域中同层次的语义信息分散在模型不同网络层提取的语义特征中 导致某一层次的语义信息在不同网络层提取的语义特征中的占比不同,因此每对特征之 间的匹配程度不同,对最终减少域间分布差异的影响也不同。因此使用注意力机制捕获 每对语义特征之间的匹配度,使用匹配度对分布距离进行加权,从而自动调整每对特征 对结果的影响。
22
具体操作如下,首先使用注意力机制计算两个语义特征之间的空间和通道匹配度
Wi,j,然后使用匹配度加权语义跨层对齐中的MK-MMD距离,其中匹配度计算公式
如3.2所示。 1 exp avg(R((《)• Rp Qj门
"2 力U=1 exP [avg (Rp(lt) • Rp (lu)T)
[ ( T ( ))] (3.2)
1exP avg (R( (litf • Rp ©))
2刀U=1 exP avg (Rp(l泸.Rp (lu))
式中Rp(J是更改维度操作,将三维的语义特征c x h x w更改为二维的语义特征c x (h x w)。avg是全局平均操作,式中第一项计算两个语义特征之间的空间匹配度,第二 项计算两个语义特征之间的通道匹配度。使用上述操作可以得到标量Wij表示源域映射 特征Is和目标域映射特征lj之间的匹配度。
3.3.3.2跨层对齐源域和目标域语义特征
如上文所述,语义错位问题的存在会对域适应产生负面影响,影响模型在目标域上 的精度,所以该步骤摒弃前人同层语义特征对齐的做法,两两对齐不同网络层提取的源 域和目标域特征。其中对齐指使用距离度量函数计算两个语义特征的距离,然后对这个 距离进行最小化约束。
本文第二章介绍了常用的距离度量函数,包括MMD、MK-MMD、JMMD和Deep
Coral等。其中,MK-MMD函数使用最为广泛。相比于MMD和Deep Coral函数,MK-
MMD 函数使用多组核函数,在多个核空间中对齐两个分布,能够有效减少域间分布差 异。JMMD主要用于对齐数据的联合分布,而在医学影像领域,域间分布差异主要体现 在边缘分布上,因此,MK-MMD函数更适用于该领域。所以,本章选择MK-MMD函 数作为距离度量函数,其计算公式如式3.3所示。
1 n p np
dmk—mmd(P, Q) — ~2 K (pi, pj)
np i=1 j=1
nq nq
+n K (qi,qj)
nq i=1 j=1
np nq
K (pi, qj) ,
i=1 j=1
式中 P 和 Q 分别表示源域和目标域数据提取的特征集合, np 和 nq 分别表示 P 和 Q 中 元素个数;Pi表示集合P中第i个元素,Pj、qi和qj与此类似;K表示一组核函数,其 计算方式如式3.4所示。
kn kn
K =0iki :〉20i = 1,0i >= 0,Vi (3.4)
i=1 i=1
式中kn表示K中核函数个数,0i表示第i个核函数的权重,ki表示第i个核函数。
为了更好地减少两个域之间数据分布的差异,在具体操作中,分别最小化同一类别
数据的 MK-MMD 距离,最大化不同类别数据的 MK-MMD 距离。其中同类别的语义特
征跨层距离 dsame 计算公式如3.5所示。
式中Lk,i表示一个批次中属于类别k的源域数据经过第i个卷积映射层得到的映射语义 特征集合,同理可得 Ltk,j 的含义。 wi,j 为 3.3.1 节中注意力机制计算得到的权重。不同 类别的语义特征跨层 MK-MMD 距离 ddiff 计算公式如3.6所示。
式中各符号的含义同公式3.5。
综上所述,语义跨层特征的距离dcross由dsame和df 两部分组成,计算公式如3.7所
示。
dcross-ali = dsame - ddiff
由式3.5和式3.6可知,在计算 dsame 和 ddiff 时需要获得目标域图片的类别标签对数 据进行划分,而无监督域适应中目标域数据无真实标签,这里使用 3.3.3.3 节中的伪标 签生成方法生成的伪标签划分数据。
3.3.3.3 生成目标域数据的伪标签 在语义跨层对齐时,需使用目标域上的伪标签划分目标域数据,在本节中详细介绍
用到的基于 K-Means 聚类的伪标签生成方法。
首先,初始时对于T中所有无标签图像,使用公式3.8计算第k个类别的中心Ck。
c =匸心 dk[C(f M f 七 (3 8)
k = E 呵。(f 七)] (')
24 式中xt表示目标域中的图像,ft = F◦ G(xt)表示xt经过特征提取器和压缩器得到的语 义特征,其中九(a)= 豪船表示K维向量a经过softmax函数处理后的第k维的元 素。然后计算与ft每个中心Ck的距离,选择距离最近中心的类别作为Xi的伪标签yt, 计算方式如3.9所示。
$ = argmax Df (f t,ck) (3.9)
k
式中Df(a,b)计算a和b之间余弦距离(CosineDistance)o最后再使用公式3.10迭代更新 伪标签yt作为最终伪标签。
c =刀x^T』(yt = k) • f 七
匚七丁 叭yt = k) ' (3 10)
yt = argmax Df (ft ,Ck)
k
式中』是指示函数,训练时,多轮迭代执行公式3.10得到目标域数据的伪标签。
3.3.4训练流程
算法1展示了本文提出算法的训练流程,主要包括模型预热、特征提取和损失值计 算三个阶段。算法的目的是利用源域和目标域数据训练一个在目标域上分类效果好的模 型M。
算法1模型训练流程
输入:源域数据S、目标域数据T,待训练的模型M = C◦ F◦ G,预训练周期EP,训 练周期ET,Batch大小BS。
输出:训练后的M
1: for epoch=l to EP do
2: 从S随机采样BS个样本。
3: 将样本输入到模型M中。
4: 根据公式3.11计算样本的分类损失。
5: 使用SGD优化器更新模型M参数。
6: end for
7: for epoch=1 to ET do
& 使用3.3.3.3节中的伪标签生成算法得到T中所有样本的伪标签。
9: 从S和T中分别随机采样BC个类别,每个类别分别随机采样BS个样本。
25
10: 将样本输入到模型M中。
11: 对于每个样本,获得指定网络层输出的二维语义特征 os = {osr}rR=1 和 ot =
{or}r=1,高维语义特征严和f。
12: 使用特征映射模块将上述二维语义特征映射为相同维度,得到 ls = {lrs}rR=1 和
it = {ir }r=1,一个批次中所有样本的映射特征在一起组成集合ls和l。
13: 根据公式3.7计算跨层语义特征的距离 dcross—ali。
14: 根据公式3.11在源域数据上计算分类损失 Lce。
15: 根据公式3.12在目标域数据上计算信息熵损失 Lentropy。
16: 根据公式3.13, 使用 dcross—ali、 fs 和 ft 计算距离度量损失 Ldis。
17: 根据公式 3.14计算总损失 Ltotal 。
18: 使用 SGD 优化器更新模型 M 参数。
19: end for
在模型预热阶段,使用有标签的源域数据训练模型,目的是预热模型,提高目标域 伪标签的准确率。预热阶段是标准的监督学习训练流程,首先使用 ImageNet 上预训练 的RestNet50模型参数初始化模型M,然后使用交叉熵损失函数和SGD优化器训练M。
在特征提取阶段,主要提取用于跨层对齐的语义特征和压缩后的高维特征。首先获 得T中所有样本的伪标签。然后从S和T中分别随机采样BS个样本输入模型M中。 这里为了使两域数据标签匹配,在具体实现时,先随机采样BC个类别,然后每个类别 分别随机采样BS个样本。然后每次获得特征提取器G中第2、3、4组瓶颈块输出的语 义特征,经过卷积映射层得到映射后的语义特征集合Ls和Lt,同时保留特征压缩器F 的输出f和『。然后按照语义跨层对齐模块中的方式计算集合L和L中不同特征对 之间的距离dcross—ali。
损失计算。模型训练的损失值包括三个部分,分类损失Lce、距离度量损失Ldis和 信息熵损失Lentropy,其中源域数据计算分类损失提升模型的分类能力,目标域数据计 算信息熵损失降低模型在目标域上的噪声,距离度量损失减少两个域之间的数据分布差 异,从而提升模型在目标域上的分类能力。三者加权后得到模型优化的最终损失Ltotal, 使用该损失更新模型M的参数。损失值的计算方式将在3.4节中详细介绍。
26
3.4损失函数
本节介绍训练模型的损失函数。该函数主要由三部分组成:分类损失、信息熵损失 和距离度量损失。其中使用分类损失训练模型有助于提升模型的分类精度,信息熵损失 用助于降低模型在目标域上预测的噪声,距离度量损失用于减少两个域之间的数据分布 差异,三个损失函数都有助于提升模型在目标域上的分类精度。下面将详细介绍这三个 损失函数。
1.分类损失
在深度学习分类任务中,广泛使用收敛快、求导简单的交叉熵损失函数(CrossEntropy Loss, CELoss)作为模型的分类损失函数。交叉熵的数学计算公式如式3.11所示。
K
Lce = -E(xs,ys)eS 刀巩k = ys) logpk, (3」1)
k=1
式中xs表示源域数据;ys是真实标签;pk由分类层C的输出结果经过d函数计算得到, 表示样本属于第k类的概率值,丄表示指示函数。
在整个训练过程中,因为只有源域数据有真实标签,所以只计算源域数据的交叉熵 损失。
2.信息熵损失
上段介绍了源域数据使用的分类损失,这段介绍目标域数据使用的信息熵损失。目 前已有研究表明[31],只使用源域数据训练的模型在目标域上噪声很大,导致模型在目 标域数据上的分类精度低。而噪声大表现为模型在目标域数据的预测概率熵值大,通过 降低模型在目标域数据上的熵值,可有效减少模型在目标域上的噪声,从而提升模型精 度。信息熵损失(Information Entropy Loss, IE-Loss)计算公式如式3.12所示。
K
Lentropy = 一Ef 灯工 dk [C (^)] log dk [C (f)], (3.12)
k=1
式中xt表示目标域数据,ft表示xt经过特征提取器和压缩器得到的语义特征,dk表示 K维向量经过softmax函数处理后的第k维的元素,C表示分类器。
3.距离度量损失
基于距离度量的无监督域适应方法使用特征对齐时计算的分布距离函数作为损失 函数,通过最小化该距离,使特征空间中的特征分布接近,从而减小域间分布差异,
27
使源域数据训练的分类器能够精确分类提取的目标域数据的特征。因此本节的做法和 传统做法一致,使用语义跨层对齐模块中计算的特征距离作为跨层距离度量损失。即
除了用于跨层对齐的三维语义特征外,特征压缩器 F 得到的一维特征 ft 和 fs 同样 蕴含丰富的信息。因为压缩后的特征和提取的三维语义维度不同,不能放在一起计算 所以计算ft和fs之间的距离作为高维距离度量损失Lsame-dis,计算公式如式3.13所示。
1K
Lsame-dis = dmk-mmd(fk , fk)
Kk
式中 fks 和 fkt 分别表示一个批次中从源域和目标域数据中提取的属于类别 k 的特征 fs 和 ft 组成的集合。
综上得到距离度量损失 Ldis = Lcross-dis +Lsame-dis。
4. 总损失。 本章训练模型使用的总损失由上述三个损失加权得到,具体计算公式如式3.14所示。
Ltotal = Lce + a 1L entropy + a2 Ldis
式中的两个超参数ai和a2分别用于平衡信息熵损失和距离度量损失对模型精度的影 响。并通过依次固定一个参数,调节另一个参数的方法来确定最优的参数值。具体做法 将在 3.5.3.1 中详细介绍。
3.5 实验设计和结果分析
3.5.1 数据集
本节介绍使用的数据集。本文参考论文[67-68],使用公开数据集制作了两个多域数据 集来验证本章方法的有效性,这两个数据集分别是胸部 X 射线数据集和皮肤癌检测数 据集。
胸部X射线数据集由NIHChest Xray[11]和CheXpert[10]两个肺部X射线数据集组成, 每个数据集可以看做一个域。 NIH Chest Xray 数据集由美国国立卫生研究院临床中心公 开发布,共收集 30,805 名患者的 14 种病理的 112,120 张胸部 X 射线数据; CheXpert 是 一个公开的大型 X 胸片数据集,包含 65,240 位患者的 14 种病理的 224,316 张胸部 X 射
28
表3.1胸部X射线数据集的统计信息
域名 数据集 样本数
域 1(Di) NIH Chest Xray 16219
域 2(D2) CheXpert 15545
表3.2胸部X射线数据集中每个类别的样本统计信息
类名 标签 D1 样本数 D2 样本数 总数
No Finding 0 4229 3947 8176
Consolidation 1 1314 1327 2641
Edema 2 1862 3364 5226
Cardiomegaly 3 2403 2106 4509
Pneumothorax 4 2199 2630 4829
Atelectasis 5 4212 2171 6383
线数据。在使用之前,依次对两个数据集进行如下处理(1)挑选出两个数据集中共有 的 6 个类别的所有数据。(2)剔除所有多标签数据,只保留单标签数据。 (3). 将所有数 据缩放为256x256像素的图片。经过上述操作后剩下的数据作为本章使用的实验数据, 如表3.1所示,处理后的 NIH Chest Xray 保留 1,6219 个样本, CheXpert 保留 1,5545 个样 本。
除了统计经过处理后的胸部 X 射线数据集中每个域中数据的整体情况外,本节还 统计了每个域中 6 个类别的数据信息和对应的标签。如表3.2所示,数据量最多的三个 类别分别是 No Finding、 Atelectasis 和 Edema。
皮肤癌检测数据集HAM10000[17 ]由不同人群的1,0015张皮肤镜图像组成,这些数 据可以划分为博文病(akiec)、良性角化样病变(bkl)、皮肤纤维瘤(df)、基底细胞癌(bcc)、 黑色素瘤(mel)、黑色素细胞痣(nv)和血管病变(vacs)共7种类别。
本章遵循该论文[68]的数据处理规则,将 HAM10000 数据集的所有数据根据性别信 息划分为两个域,未标注性别的数据直接舍弃,处理后得到如表3.3所示的两域数据,所 有男性数据组成域 1,所有女性数据组成域 2。表3.4展示了两个域中每个类别数据的统
29
表3.3 皮肤癌检测数据集的统计信息
域名 性别 样本数
域 1(D1) Male 5406
域 2(D2 ) Female 4552
表3.4 皮肤癌检测数据集中每个类别的统计信息
类名 标签 D1 样本数 D2 样本数 总数
nv 0 3421 3237 6658
bkl 1 626 463 1089
mel 2 689 424 1113
bcc 3 317 197 511
akiec 4 221 106 327
vasc 5 69 73 142
df 6 63 52 115
计信息。
训练过程中,从每个域中随机抽取 80% 数据作为该域的训练集,剩下 20% 的数据 作为该域的测试集。两个数据集都轮流将两个域作为源域和目标域测试模型分类效果。
3.5.2 实验设置和评价指标
3.5.2.1 实验设置
本节介绍本章方法的实验设置,本章使用RestNet50作为网络的Backbone。使用 PyTorch框架提供的在ImageNet数据集上预训练的参数初始化模型参数。在整个训练过 程中,使用SGD参数优化方法优化模型参数,SGD参数的momentum设置为0.9,网络 整体的学习率设置为0.001,输入Batch的大小设为32。
提出的网络框架使用Pytorch深度学习框架实现,并在单张NVIDIA GeForce GTX 3090 显卡上进行训练。
30
3.522评价指标
对于多分类任务,本章使用准确率评价模型的分类效果。准确率统计测试集中预测 正确的样本个数占测试集总体数据个数的比例,可有效反映模型分类的效果,计算方式 如式3.15所示。
ACC = 100 x 刀心小仏=yi)% (3.15)
n
式中yi表示第i个样本的真实标签,yi表示第i个样本的预测标签。
3.5.3实验结果与分析
本节将从超参数确定、与其他方法对比、消融实验和分类结果定性分析四个方面验 证本章算法的有效性。
3.5.3.1超参数确定
本节将在两个数据集上,通过实验确定超参数ai和a2的值。其中ai用来调整信 息熵损失对模型精度的影响,a2用来调整距离度量损失对模型精度的影响。本节使用 两组对比实验来确定两个超参数的最优值。
在第一组实验中,将a2固定为1.0,将ai从0.1调整到0.9。两个数据集上的准确 率如表3.5所示,从表中可以看出,由于两个数据集中不同域之间域偏移程度不同,对超 参数ai的敏感性也不同,在胸部X射线数据集上ai=0.5时分类效果最好,在皮肤癌检 测数据集上ai=0.3时效果最好。这个取值被用在后续所有实验中。
表3.5超参数ai对分类正确率的影响(%)
ai 0.1 0.3 0.5 0.7 0.9
胸部X射线数据集 75.5 76.0 76.3 76.1 75.8
皮肤癌检测数据集 85.4 85.9 85.6 85.8 85.4
在第二组实验中,在胸部X射线数据集上固定ai为0.5,在皮肤癌检测数据集上固 定ai为0.3。变化a2从0.1到0.9,两个数据集上的准确率如表3.6所示,从表中可以发 现,在两个数据集上分类的最优结果都是a2=0.7。a2的最优取值同样被用在后续所有 实验中。
31
表3.6超参数a2对分类正确率的影响(% )
&2 0.1 0.3 0.5 0.7 0.9
胸部 X 射线数据集 74.7 75.7 76.1 76.5 76.2
皮肤癌检测数据集 84.7 85.8 86.3 86.8 86.1
3.5.3.2与现有方法对比
为了验证本章提出方法的有效性,将提出的方法与经典的无监督方法对比。参与对 比的方法如下。
ERM:该方法不使用任何策略,直接将源域上预训练的模型在目标域上测试。
dan[23]:该算法指出随着神经网络层数变深,提取的特征蕴含的语义信息由表层 向深层转变,当两个域分布差异较大时,深度特征的可迁移性下降。因此作者使用最大 均值差异函数对齐网络在两个域上提取的多层深度特征,并将单核的最大均值差异函数 替换成多核的最大均值差异函数。
DANN[18]:作者首次将对抗学习的思想引入无监督域适应中,在网络中引入一个域 判别器判断特征提取器提取的特征属于源域还是目标域,利用生成对抗方式训练,迫使 特征提取器提取出判别器无法分辨的域不变特征。使用源域提取的域不变特征训练分类 器,测试时,将目标域数据提取的域不变特征输入分类器,得到分类结果。
cdan[24]:论文指出当时的对抗域适应方法只对齐特征,没有对齐标签,因此作者 提出条件对抗域适应网络对齐特征和类别的联合分布。同时作者使用熵量化分类器预测 结果的不确定性,消除难迁移样本对域适应产生的不良影响。
GCAN[69]:作者首次将图卷积网络引入UDA领域,提出一种图卷积对抗网络,该 网络可同时对两个域的数据结构、域标签和类标签建模,并依次设计结构感知对齐、域 对齐和类中心对齐三种有效对齐机制。通过多维度对齐机制,有效解决两个域间的域偏 移问题。
SCA[70]:论文指出大多数UDA方法只从整体上对齐源域和目标域数据的分布,忽 略了数据中的类别信息,会错误对齐两个域中不同类别的数据分布,影响模型在目标域 上的分类精度。因此作者在前人的基础上,引入Triplet Loss,从类别层面上,拉近两个 域中同类别数据间的距离,推开不同类别的数据,提高模型在目标域上的精度。
32
表3.7现有UDA方法在胸部X射线数据集上的准确率(%)
方法名称 Di T D2 D2 T D1 Avg
ERM 70.4 67.5 68.9
DAN 77.1 71.0 74.1
DANN 75.7 71.7 73.7
CDAN 78.9 71.3 75.1
GCAN 76.4 72.2 74.3
SCA 76.5 73.9 75.2
CRL 78.1 72.6 75.4
CADA 77.9 75.1 76.5
CRL[32]:作者指出目前基于伪标签训练的UDA方法生成的伪标签中包含噪声,使 用这些数据训练模型会扩大和累积误差,导致模型过度适应噪声。因此论文中提出一种 类间和类内正则约束函数,防止模型过度拟合错误的样本。
CADA:本文提出的基于跨层对齐的无监督域适应医学影像分类算法。
表 3.8 现有 UDA 方法在皮肤癌检测数据集上的准确率(%)
方法名称 D1 T D2 D2 T D1 Avg
ERM 82.3 81.1 81.7
DAN 84.6 80.1 82.4
DANN 85.0 81.9 83.5
CDAN 86.5 81.4 84.0
GCAN 87.3 82.2 84.8
SCA 86.9 83.6 85.3
CRL 85.2 83.1 84.2
CADA 87.7 85.8 86.8
表3.7和3.8展示了两个数据集上多种UDA方法的实验结果。其中,使用黑色字体
标注最高准确率,下划线标注第二高准确率。从两表中的平均分类准确率中可以看出
33
本文提出的方法在两个数据集都远远好于现有的基于距离度量的 DAN、 CDAN、 GCAN 和 SCA 方法。同时本文提出的方法也优于基于生成对抗的 DANN 方法和基于自训练的 CRL方法。我们分析认为效果的提升得益于:(1)跨层对齐不同网络层提取的源域和目 标域特征,有效减少域间分布差异。(2)引入注意力机制自动计算每对特征的匹配度 自动调整每对特征对齐对结果的影响。(3)使用信息熵损失函数,降低模型在目标域上 的泛化误差。
3.5.3.3 消融实验
为了验证不同损失和语义跨层对齐模块中关键步骤的的有效性,本节在两个数据集 上分别针对损失函数和语义跨层对齐模块做了消融实验,下面将分别介绍两组消融实 验。
损失函数消融实验结果如表3.9所示。其中 ERM 方法不使用任何无监督域适应技 巧,将源域上训练的模型直接应用在目标域上;Model-A模型使用信息熵损失,不使用 距离度量损失; Model-B 模型使用距离度量损失,不使用信息熵损失; CADA 使用所有 损失。
表 3.9 损失函数在胸部 X 射线数据集和皮肤癌检测数据集上的消融实验结果(%)
方法名称 信息熵损失 距离度量损失 胸部 X 射线 数据集 (Avg) 皮肤癌检测 数据集 (Avg)
ERM X X 68.9 81.7
Model-A ✓ X 71.5 83.1
Model-B X ✓ 75.3 85.1
CADA ✓ ✓ 76.5 86.8
从表3.9中可以发现:(1)对比 Model-A 和 ERM 模型发现信息熵损失可以有效降 低模型在目标域上的噪声,提升模型在目标域上泛化能力。(2)对比 Model-B 和 ERM 模型发现距离度量损失可大幅提升模型在目标域上的分类准确率。(3)对比 CADA 与 Model-A和Model-B可以发现当信息熵损失和距离度量损失一起使用时,两者都起到积 极作用。
34
语义跨层对齐模块消融实验结果如表3.10所示。其中“CADAw/oattentionw/ocrossalignment^ 表示去掉注意力机制和跨层对齐源域和目标域语义特征,“CADA w/o atten- tion"表示去掉动态注意力机制,CADA表示使用所有策略。
表 3.10 语义跨层对齐模块中关键步骤的消融实验结果(%)
方法名称 胸部 X 射线
数据集 (Avg) 皮肤癌检测
数据集 (Avg)
Ours w/o attention w/o cross-alignment 73.2 84.5
Ours w/o attention 75.1 85.9
Ours 76.5 86.8
从表3.10中可以发现:(1)对比第1和2行数据,可以发现在胸部X射线数据集上, 跨层对齐操作可以提升1.9%的准确率,在皮肤癌检测数据集上可以提升1.4%的准确 率。说明跨层对齐操作可有效提高模型在目标域上的分类准确率。(2)对比第2和3行 数据,可以发现注意力机制在两个数据集上都可提升1%左右的精度。说明注意力机制 可有效捕获每对语义特征之间的匹配度。
3.5.3.4 分类结果定性分析
为了定性分析本章方法是否解决源域和目标域间的域偏移问题,本节在两个数据集 的D1 T D2任务上随机采样10,000个左右的样本,使用t-SNE[71] (t-Distributed Stochastic Neighbor Embedding)图可视化ERM方法和CADA方法提取的两个域的语义特征。图 中红色的点表示模型提取的源域数据的特征,蓝色的点表示模型提取的目标域数据的特 征。
图3.3 (a)表示经过ERM方法训练后的模型在两个域上提取的特征,图3.3 (b)表示经 过CADA方法训练后的模型在两个域上提取的特征。对比两个图可以发现,由于胸部 X射线数据集由两个公开数据集组成,在使用域适应方法之前,模型提取的两个域的语 义特征分布差异十分明显,经过本章提出的方法后,模型提取的两个域的特征分布已经 十分接近,证明了本章算法的有效性。
从图3.4 (a)中可以看出,由于皮肤癌检测数据集中的两个域是同一个数据集按性别
35
(a)经过ERM处理后的t-SNE图 (b)经过CADA处理后的t-SNE图
图3.3胸部X射线数据集上Di t D2任务的t-SNE图
划分的,两个域之间语义特征的分布差异小于肺部疾病检测数据集中的语义特征分布差 异,但是图3.4 (a )中左下角和右下角的红色区域说明两个域间依然存在分布差异。图3.4 (b)展示了本章方法提取的语义特征,可以看出红色和蓝色点所在区域几乎重合,说明本 章方法已经很好地消除了域间语义特征分布差异。
⑻经过ERM处理后的t-SNE图 (b)经过CADA处理后的t-SNE图
图3.4皮肤癌检测数据集上Di t D2任务的t-SNE图
3.6 本章小结
本章首先指出当前深度学习技术在医学影像分类任务的临床应用中面临的难题,然 后指出目前基于无监督域适应的医学影像分类方法中存在的不足之处。针对这些不足之 处,本章提出了相应的解决方法。
36
然后在 3.2 节中详细介绍了基于无监督域适应的医学影像分类任务的定义、难点 目前解决方法和本章方法的贡献点。在 3.3 节中详细介绍了本章算法的整体框架、特征 映射模块、语义跨层对齐模块和模型训练流程。在 3.4 节中详细介绍了用到的分类损失 信息熵损失和距离度量损失。
最后在3.5节中介绍实验。在 3.5.1节中详细介绍使用公开数据集制作的多域分类 数据集。在 3.5.2 节中介绍了实验设置和使用的准确率评价指标。在 3.5.3 节中从超参数 确定、与现有方法对比、消融实验和分类结果定性分析四个方面验证本章提出算法的有 效性。
37
4基于无源主动域适应的医学影像分割方法
4.1 引言
目前基于深度学习的医学图分割技术已得到广泛应用,并取得较高精度。但是深度 学习技术本质由海量数据驱动,只有使用大量独立同分布的有标注数据才能训练一个高 精度模型。而在医学领域,一方面医学影像标注困难导致标注数据代价高,有标注数据 少,另一方面不同医院数据由于设备品牌、成像参数、数据模态等差异导致数据分布存 在差异。而这些因素都制约医学分割技术发展,影响模型的泛化能力和分割精度。如何 充分利用存在分布差异的多中心数据集,并使用少量有标注数据训练一个强泛化能力 高分割精度的模型成为医学分割技术达到临床可用水平的关键。
为了解决数据分布差异的问题,研究人员提出无监督域适应下的医学影像分割方 法。这类方法将每个医疗中心的数据看作为一个域,弱化有标签源域和无标签目标域的 分布差异,利用源域数据提高模型在无数据标注的目标域上的精度。但是该类方法在训 练过程中需同时获取两个域的数据,容易泄露源域中病人的隐私。
针对上述问题,研究人员提出了无源主动域适应(Source-Free Active Domain Adaptation, SFADA)方法。这类方法在UDA的基础上,在训练模型的过程中,不接触源域 数据,只将源域上预训练的模型传递给目标域,可有效避免源域数据隐私泄露的问题 此外,该方法允许在少量预算(Budget)内标注部分目标域数据,以提升模型在目标域 上的精度。因此SFADA方法的关键点有两个:(1)数据选择。在预算内,选择哪些数 据进行人工标注以带来最大化收益。(2)如何将源域中的知识迁移到目标域中,提升模 型在目标域上的精度。
其中数据选择的关键点也是主动学习中的关键点,在分类任务上,已经许多成熟的 方法。但是在分割任务中,现有方法将图像中的每个像素类比为分类中的图片,直接套 用分类任务中的样本选择策略。这种做法存在如下问题:(1)简单套用分类方法,单 独计算像素得分,未考虑分割任务中相邻像素间的强相关性以及器官边缘难分割的特 点。(2)在医学影像分割任务中,图像中只有一些关键区域对模型训练是重要的,例如 物体边缘区域,因此标注整张图像浪费了宝贵的预算。
38
针对上述问题,本文首先放弃传统做法,将标注对象由图像改为块,聚焦关键区域, 提高预算利用率。然后结合医学影像分割中器官边缘难分割的特点选择块进行标注,利 用少量预算获得较大价值的标注数据。然后使用动态阈值伪标签生成策略保留部分无标 注数据的伪标签,使用这部分数据和标注的数据同时训练模型,提高模型的分割精度 最后,使用模型蒸馏损失函数,将源域上预训练模型中蕴含的先验知识通过模型蒸馏的 方式迁移到目标域上的模型中,进一步提升模型的分割性能。
本章首先在 4.2 节介绍了基于无源主动域适应的医学影像分割任务的定义、难点以 及本文提出的算法的贡献点。在 4.3节介绍提出的无源主动域适应医学影像分割方法 包括模型框架、网络结构和训练流程。在4.4节中介绍用到的损失函数。在4.5节介绍 实验设计和实验结果分析,在该小节中分别介绍使用的数据集、实验设置、实验评价指 标、实验结果及分析。最后在 4.6 节对本章工作进行总结。
4.2基于无源主动域适应的医学影像分割任务
无源主动域适应方法由无监督域适应方法演变而来。该类方法一方面将源域上预 训练模型里蕴含的先验知识迁移到目标域上的模型中,另一方面在预算内,使用样本选 择策略选择数据进行人工标注,提升模型在目标域上的精度。由于目前还没有基于无源 主动域适应的医学影像分割任务的方法,所以本节从基于无源主动域适应的自然图像分 割任务的定义出发,给出基于无源主动域适应的医学影像分割任务的定义和该任务的难 点。此外,本节还介绍了针对难点本文提出的算法的贡献点。
基于无源主动域适应医学影像分割任务的定义:用S = {(xs,ys)}n= 1表示源域数据 集,其中xS表示第i个影像,ns表示源域中影像的个数,yf表示第i影像的像素级标 签。用T = {(xt)}i= 1表示目标域数据集,其中xt表示第i个影像,nt表示目标域中影 像的个数。假设两个域中图像像素的类别空间K = {1,...,K}相同,因为医学影像中只 有前后景两类,所以K=2。该任务的目标:在预算内标注部分数据,记为71,剩余数据 记为7U = 7-71,在目标域上利用71、T和源域上预训练模型Ms学习一个分割效果 好的模型Mt : Xt T YJ
基于无源主动域适应医学分割任务存在如下两个难点:
(1)如何进行数据选择。深度学习技术完全由数据驱动,使用高价值的数据训练模
39 型可加快模型收敛,提高模型的分割精度。因此,在预算有限的情况,如何根据具体任 务选择能够给模型训练带来最大效益的数据进行标注,是该任务的难点,也是关键点 针对该难点,可以使用主动学习中的样本选择策略解决,但是这些方法主要针对分类任 务,没有针对医学影像分割的特点提出有效的样本选择策略。
(2)如何利用源域上预训练模型中蕴含的知识。源域上预训练的模型中含有丰富的 先验知识,将这些知识引入目标域上的模型,可以提高模型的分割精度。因为域间分布 差异的影响,直接使用该预训练模型在目标域上推理,往往效果较差。此外,与无监督 域适应不同,无源主动域适应假设因为隐私问题,在训练过程中无法获得源域数据,这 导致许多解决域适应的方法不能使用。现有的方法主要使用距离函数约束目标域上模型 的输出与预训练模型的数据一致,从而利用预训练模型中蕴含的知识。
为了解决上述问题和难点,本章提出基于块级数据选择的无源主动域适应医学影像 分割算法。该算法的贡献点如下:
(1) 结合医学影像中物体边缘难分割的特点,提出块级(Patch-Level)数据选择策略。 首先,该策略放弃了之前对完整图像进行标记的方法,将图像划分成不同的块(Patch), 每次以块为单位进行标注;其次,该策略从块内像素分类的不确定性、抗干扰性和块处 于物体边缘程度三个方面综合选择难分割且靠近边缘的块。该策略可在预算内选择出价 值高的数据进行标注,然后用于模型训练,有效提高预算的利用率。
(2) 提出一种动态阈值伪标签生成策略,该策略根据每张图像中每个类别的特点自 动生成阈值,根据阈值生成部分像素的伪标签,然后结合保留伪标签的数据和人工标注 的数据训练模型,可以充分利用所有数据,避免造成数据浪费。
(3) 使用知识蒸馏损失约束目标域上模型的预测概率与源域上预训练模型的预测概 率一致,从而将预训练模型中蕴含的先验知识引入目标域的模型中,提升模型在目标域 上的分割精度。
4.3基于块级数据选择的无源主动域适应医学影像分割算法
4.3.1 整体网络结构
本章提出的基于块级数据选择的无源主动域适应医学影像分割算法的网络结构如 图4.1所示。该网络从结构上可以分为两个部分:
40
(1)编码器。该网络结构中的编码器由基于ResNet50的DeepLabV3+[6]网络结构组 成,其核心部分是ResNet50骨干网络(Backbone)和空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)。其中空洞空间金字塔池化由三个不同感受野的空洞卷积组成, 用于捕获不同尺度的语义信息。
(2)解码器。该网络主要有三个结构相同的解码器,其中每个解码器由多层卷积和 上采样构成,主要连接不同层次的语义特征图,将语义特征图解码为与输入图像相同大 小的输出图像。三个解码器分别输出不同的预测结果,三个预测结果为数据选择模块作 准备。
整个网络从功能上可以划分为数据选择模块和伪标签生成模块,分别在 4.3.2和 4.3.3 节中详细介绍。
4.3.2 数据选择模块
数据选择模块的作用是在预算范围内,选择最能提升模型精度的数据,然后将这些 数据进行人工标注后用于训练模型。现有的理论表明[35-37],使用难分割、处于决策边界 的数据训练模型,可确定模型的决策边界,提升模型精度。因此如何选择出难分割、处 于决策边界的数据成为数据选择的重点。
本章结合医学影像边界难分割的特点提出一种块级数据选择策略。将医学影像划分
41
为大小相同的块,以块为单位标注。在使用预测概率熵表示像素不确定性的基础上,引 入多个预测概率的方差表示抗干扰性、块中前后景占比的基尼系数表示处于物体边缘的 程度。像素多个预测概率的方差大,说明像素经过简单扰动后难被有效分类,抗干扰性 差。块中像素类别基尼系数大,说明块中前后景像素混杂,易处物体分割边缘。每次选 择不确定高、抗干扰性差、处于边缘的块进行标注。
块层次数据选择策略相比现有方法有如下创新点:(1)将标注对象由图像改为块
聚焦提升模型精度的区域,提高预算利用率。(2)结合分割任务的特点,引入基尼系数
衡量块的混杂程度和贴近物体边缘的程度,挖掘处于物体边缘的难分像素点。(3)使数 据选择策略和伪标签生成策略充分互补。难分割区域以块为单位人工标注,易分割区域 以像素为单位使用伪标签作为真实标签,两者有效互补。
块层次数据选择策略的详细计算过程如下:
(1)将目标域数据划分为无标签数据TU和有标签数据Tl。遍历T中所有图像,对 于任一图像X,输入网络Mt后,经过三个解码器得到预测的概率图pi、p2和p3,然后 将x划分成Qx个矩形块,每个矩形块的大小设置为Px pixel x Px pixel大小。Xq,h,w表 示在块q中位于图像(h,w)位置的像素,集合Phq表示块q中的所有像素。
(2)聚合块中每个像素预测概率的熵表示块的不确定性。先使用公式4.1计算每个 像素预测概率的熵。
13
epixel(h, w) = — 3 EE pi,h,w,k log pi,h,w,k (4.1)
i=1 keK
式中epixel(h,w)表示位于(h,w)位置像素的熵,Pi,h,w,k表示位于(h,w)位置的像素在第i 个概率图中预测为第k类的概率值。然后使用公式4.2计算块的不确定性。
Tph epixel (h,w)
|Phq| xh,wePhq
式中eq表示第q块的不确定性,|Phq|表示块q中像素个数。
(3)聚合块中每个像素预测概率的方差表示块的抗干扰性。首先使用公式4.3计算 每个像素预测概率的方差。
dpixel (h , w) = D({pi,h,w,k}i=1)
keK
式中dpixei(h, w)表示位于(h,w)位置像素的方差,D(・)表示方差公式。然后使用公式4.4计
算块的抗干扰性dq。
式中dq表示第q块的抗干扰性,\Phq|表示块q中的像素个数。
4)使用公式4.5计算块前后景像素占比的基尼系数表示块的边缘程度 gq。
(4.5)
式中 nk 表示块 q 中预测为 k 类的像素点的数量。
(5)计算每个块的最终得分。按照上述步骤计算TU中所有块的熵值、方差和基尼
系数,然后计算每个块的最终得分。熵、方差和基尼系数量纲不同,将其直接相加无意 义,因此这里根据块在每个量纲下排序后的位置,得到最终得分,具体计算公式如4.6所 示。
scoreq = rankq({ei}iQ=u1) + rankq({di}iQ=u1) + rankq({gi}iQ=u1) (4.6)
式中scoreq表示块q的得分,rankq表示表示块q在所有块中按照指标降序排列所处的 位置,Qu表示TU中所有块的数量。
(6)得到每个块的不确定得分scoreq后,在训练过程中,每隔一段训练周期选择 得分排名前0.5%的块给专业人士标注,将这部分标注的块记为Tu,selected,然后使用公 式4.7和4.8分别更新T和无标注数据集TU。
Tu = Tu - Tu,selected
重复上述步骤直到Tl中块个数达到预期。
4.3.3 伪标签生成模块
为了降低专业人员标注数据的负担,在整个训练过程中只对5%的数据标注,剩下 95%的无标注数据。为了充分利用这些无标签数据,本节中的伪标签生成模块保留部分 像素的伪标签用于训练模型。
43
常用的伪标签生成策略一般先固定一个阈值tstatic,然后每次选择预测概率Ph,w,k > tstatic的像素,保留其伪标签y = argmaxph>w,k用于训练模型,其中Ph,w,k表示位于(h,w) keK
位置的像素属于类别k的概率,tstatic 一般定为0.95。但是由于不同类别预测的概率值 的分布和上限不同,该方法会导致上限小于tstatic的类别一直不被选择,影响模型效果。
因此,本章提出动态阈值伪标签生成策略,统计一张图像中每个像素点的预测属于 每个类别的概率,然后降序排列每个类别的预测概率值,选择第 15%分位点数值作为 该类别的阈值,记为tk,dynamic,保留Ph,w,k > max(tk,dynamic, 0-5)像素的伪标签作为真实 标签。该策略根据每张图片中每个类别的特点动态保留像素,既平衡不同类别像素的数 量,又无需人工调整阈值参数。
该动态阈值伪标签生成策略具体操作如下:
(1)对于目标域上的一张图像X,经过三个解码器得到预测概率图p:、p2和p3,平 均后得到该图像的预测概率图pt = 1工3= Pt。使用公式4.9计算得到每个像素的伪标签。
yh,w = argmax ph,w,k (4.9)
keK
式中Ph,w,k表示位于(h,w)的像素预测为第k类的概率。
(2)用集合Plk表示一张图像中经过样本选择模块选择后剩余的属于k类的像素, 按照预测为yh,w的概率值,对Plk中所有像素降序排列,选择排序前15%的像素保留 下来。每个类别保留的像素在一起组成集合TUsed。将TUsed中所有像素的伪标签y保留 下来用于后续训练。
4.3.4训练流程
本节详细介绍该框架的训练流程。如算法3所示,标准训练流程分为模型初始化、数 据弱增强和计算损失值三个步骤,不包括模型预训练步骤。为了保持工作的连贯性,本 节在4.3.4.1 节中先介绍模型预训练流程,然后在4.3.4.2节中介绍标准训练流程的三个 步骤。
4.3.4.1 模型预训练
如算法2所示,在基于无源主动域适应的医学影像分割任务中,使用监督学习的方 式在源域预训练一个模型Ms。整个训练流程包括数据处理、语义分割和损失值计算三
44
个部分。
算法2模型预训练
输入:源域数据S,预训练模型Ms,训练的周期ET,Batch大小BS。
输出: 训练后的 Ms
1: for epoch=1 to ET do
2: 从 S 中采样 BS 个样本。
3: 随机挑选三种弱增强方式增强每个样本得到训练数据。
4: 将训练数据输入网络Ms中。
5: 每个数据都得到三张预测概率图p;、P2和p3。
6: 对三张概率图求平均,得到每个数据预测概率图 ps。
7: 使用分割损失4.14训练网络Ms。
8: end for
在数据处理阶段,首先使用三种弱增强方式处理输入图像x得到三张处理后的图像 X1、X2和X3。根据医学影像特点和后续的处理方式,这里使用的增加噪声、改变对比 度、改变亮度和饱和度等不改变图像形状的弱增强方法。
在语义分割阶段,将上述Xi、X2和X3输入编码器Fs中得到fi、f2和f3,然后将 这个特征随机输入三个编码器中,得到维度为H X W X 2的预测概率图pi、p2和卩3, 平均后得到最终预测概率图p = i z3=i亿。
最后使用公式4.14所示的损失值更新模型参数。因为源域数据集上都是有标签的数 据,所以计算损失值时,只计算有标签数据的损失。
4.3.4.2标准训练流程
算法3展示了本章提出算法的标准训练流程,主要包括模型初始化、数据预增强和 损失值计算三个阶段。算法的目的是在目标域上得到一个高分割精度的模型,所以整个 训练过程中锁定预训练模型Ms参数不更新,只更新目标域上的模型MJ 算法3标准训练流程
输入:目标域上有标签数据71、无标签数据集TU,预训练模型Ms,待训练的模型 Mt,训练的周期ET,Batch大小BS,样本选择预算BT,样本选择周期SE = {SEi,SE2,...,SEn}。
45
输出: 训练后的 Mt
1:初始化 TU = T、T = 0、Mt = Ms。
2: for epoch=1 to ET do
3: 从T中随机采样BS个样本。
4: 随机挑选三种弱增强方式增强每个样本得到训练数据。
5: 将训练数据输入网络 Mt 中。
6: 使用 4.3.4 节中的伪标签生成模块得到 Tused。
7: 根据公式4.14计算样本 x 的分割损失 Lseg。
8: 根据公式4.15计算样本 x 蒸馏损失 Ldistill。
9: 根据公式4.16计算模型训练的总损失 Ltotal。
10: 使用 Adam 优化器更新模型 Mt 参数。
11: if epoch e SE then
12: 使用432节中的数据选择模块,选择得分靠前的ifEi个块,记为Tselect。
13: 更新 T = T U Tselect > TU = TU - Tselect。
14: end if
15: end for
在模型初始化阶段,假设已经获得源域上预训练模型Ms。首先构建一个和Ms相 同结构的目标域模型Mt,然后使用Ms的参数初始化Mt的参数。初始化完成后,将 Ms 的参数锁定不更新。训练开始时,目标域上所有数据都无标注,因此初始化有标注 数据集合为空集,无标注数据集合为目标域数据全集,分别记为 Tl = 0 和 Tu = T。
在数据预增强阶段,随机选取三种弱数据增强方式增强输入的图片x,得到三张增 强后的样本 x1、 x2 和 x3 ,其中用到的增强方式包括增加噪声、改变对比度、改变亮度 和饱和度等。这样做,一方面提升模型的鲁棒性,另一方面为样本选择策略和伪标签生 成策略做准备。
损失值计算。将上述增强后的图像输入模型 Mt 中,首先经过编码器 Ft 编码得到 特征图fl、f2和f3,然后分别输入三个编码器中得到长宽与输入图像相同的二维矩阵 概率图pl、p2和p3,其中上标t表示经过Mt网络得到的结果。将增强后的图像输入 模型Ms,同样方式得到pS、P2和P3。使用伪标签生成模块得到TUsed。根据预测的概 率图使用公式4.14计算分割损失Lseg,使用4.15计算蒸馏损失Ldistiii,将两者加权得到
46
模型优化的最终损失Ltotal,使用该损失更新模型Mt的参数。固定每隔几个训练周期 (Epoch),使用数据选择模块从无标签数据中筛选部分数据给专家标注,将标注后的数 据从无标签数据中取出放入有标签数据中用于下次训练使用。
4.4损失函数
根据模型训练流程,无论在预训练阶段还是标准训练阶段,都需要采用分割损失 Lseg以更新分割网络参数,提升分割性能;除此之外,在训练阶段还需使用蒸馏损失 Ldistall,以实现模型之前的知识传递,提升模型的适应能力。本节将详细介绍采用的两 种损失函数。
1.分割损失
预训练阶段和训练阶段的主要任务都是在数据集上训练一个高分割精度的神经网 络模型。本章使用分割任务中常用的加权交叉熵损失函数(Weighted Cross Entropy Loss, Weighted-CE Loss)和 Dice 损失函数(Dice Loss Function, Dice Loss)作为模型训练的 损失函数,前者有效提升模型的像素分类能力,后者促使模型预测结果贴合真实标签。
加权交叉熵损失函数根据类别的占比赋予每个类别样本不同损失权重,通过权重 提升像素个数少的类别在模型训练过程中的重要性,从而解决正负像素分布不均衡的 问题。该损失函数的权重有多种计算方式,本章中选择最常见的计算方式。首先使用公 式4.10计算一张图片中每个类别像素点出现的频率(Class Frequency)□
(4.10)
式中nk表示第k个类别像素点个数,cfk表示第k个类别出现频率。然后使用公式4.11计 算得到每个类别的交叉熵损失权重。
Me({cfi}i=i)
式中Me(J表示求中位数。最后对图像x中所有属于T和Tz 的像素使用公式4.12计 算图像x的加权交叉熵损失Lweighted_ce。
式中Xh,w表示一张图像中位于(h,w)的像素,Wk表示交叉熵损失权重,丄表示指示函数, Ph,w,k表示像素Wh,w预测为类别k的概率。对于标注的数据,y是真实标签,对于伪标 签数据,y是伪标签。
Dice损失是一种集合相似度度量损失,通常用于计算两个集合的相似度,将其作为 模型的分割损失函数,可以提升模型拟合真实分割区域的能力。对图像x中所有属于Tl 和TUsed的像素使用公式4.13计算Dice损失值Ldm。
式中Y表示T和TUsed所有像素的真实标签组成的集合,y表示这些像素的预测标签组 成的集合。
最后使用公式4.14,加权Lweighted_ce和Ld.ce得到分割损失Lseg。
2.模型蒸馏损失。
在不使用源域数据的前提下,充分利用源域上预训练模型中蕴含的先验知识,可以 有效提升模型在目标域上的分割精度。使用蒸馏损失可以强制约束pt,h,w向p汰w对齐, 这样既可以通过分布对齐解决源域和目标域中的域偏移问题,同时可以让模型Mt学习 模型Ms的预测结果,达到知识迁移的目的。
本章使用信息论中用于度量两个分布相似性、量化两个分布之间信息损失的KL 散度(Kullback-Leibler Divergence, KL Divergence)作为知识蒸馏损失函数,计算公式 如4.15所示。
Ldistill = |T| + |T d| Ph,w,k • (logph,w,k — logph,w,k)
xh,w ©{TldVUsed} k&K
式中Xh,w表示一张图像中位于(h,w)的像素,phwk表示像素经过模型Ms的预测概率, ph,w,k表示像素经过模型Mt的预测概率。
3.总损失。
最后,使用公式4.16得到模型最终的损失值Ltotal。
Ltotal — Lseg + L distil
4.5 实验设计和结果分析
4.5.1 数据集
本文使用该论文[72]中制作的多域眼底图像数据集(Fundus image segmentation dataset) 和前列腺 MRI 数据集(Prostate MRI segmentation dataset)进行实验。
表4.1 眼底图像数据集的统计信息
域名 数据集名称 样本数
域 1(Di) REFUGE 400
域 2(D2) RIM-ONE-r3 159
域 3(D3) DrishtiGS 101
眼底影像分割数据集由公开的REFUGE[12]训练集、DrishtiGS[14]数据集和RIM-ONE- r3[13]数据集三个视网膜眼底数据集组成,每个数据集中的数据都来自一个医疗机构,每 个医疗机构生产的数据组成一个域。具体信息如表4.1所示,其中REFUGE包含400张 影像数据,DrishtiGS数据集中含有101张数据,RIM-ONE-r3中含有159张影像数据。 上述所有数据在预处理阶段先将被裁剪成800x800的感兴趣区域(ROI),然后缩放成 384x384大小的影像用于训练。
表4.2前列腺MRI分割数据集的统计信息
域名 数据集名称 样本数
域 1(Di)
域 2(D2) NCI-ISBI13 RNUMC
PROMISE12BIDMC 381
261
前列腺MRI分割数据集由RNUMC开源的NCI-ISBI13[15]数据集和PROMISE12[16]中 的BIDMC数据集组成。如表4.2所示,其中NCI-ISNI13域中有381张影像,PROMISE12 数据集中含有261张影像。所有数据都被预处理为具有相似的前列腺区域视野,并在轴 向平面上调整为384x384大小。
训练时,将每个域的数据随机抽取 80% 组成该域的训练集,剩下的 20%数据作为 测试集。对于眼底影像数据集,本文在该数据集上常用的Optic Cup分割任务上做实验。
49
为了保持与其他方法对比的一致性,本章将眼底影像数据集的域1作为源域,域2和与 3作为目标域,将前列腺MRI分割数据集的域1作为源域,域2作为目标域。
4.5.2 实验设置和评价指标
4.5.2.1 实验设置
本节介绍训练过程中的实验设置。本章提出模型的backbone是ResNet50网络结构, 使用PyTorch框架提供的在ImageNet数据集上预训练的参数作为其初始化参数。在整 个训练过程中,使用Adam参数优化方法优化参数,Adam的momentum分别为0.9和 0.99。网络整体的学习率设置为0.001,输入Batch的大小设为4。
使用Pytorch深度学习框架实现本文提出算法的网络结构,并在在单张NVIDIA GeForce GTX 2080Ti 显卡上训练。
4.5.2.2评价指标
在医学影像分割领域中,通常将具有长期经验的资深医生手动标注的范围作为标 准,称为标签或者Ground Truth。得到训练好的模型后,一般通过计算模型预测的结果 (Segmentation Predict)与Ground Truth之间的差异来衡量模型的好坏。这里使用医学分 割领域中用来衡量预测值与真实值之间差异的Dice系数(Dice coefficient)作为衡量指 标,计算方法如式4.17所示。
Dice(A,B)=|AJ|B | (4.17)
式中A表示模型的预测结果,B表示真实结果,分子表示真实结果和预测结果的交集, 分母表示真实结果和预测结果的和。从公式中可以看出,Dice系数比较关注真实值与预 测值之间的重叠面积,两者面积重叠越大,Dice值也越大,表示分割效果越好;两者重 叠面积越小, Dice 值也越小,表示分割效果越差。
医学影像分割任务除了关注预测结果与真实标签的重叠面积外,同样关注两者在物 体边缘是否对齐,这里使用豪斯多夫距离(Hausdorffdistance, HD)衡量两者之间的距 离,计算公式如式4.18所示。
H(A,B) = max(h(A,B),h(B,A)) (4.18)
50
式中 h(A,B) 和 h(B,A) 的计算方式为式4.19和4.20所示。
h(A,B) = max{min ||a — b||} (4.19)
aCA beB
h(B, A) = max{min | b — a|} (4.20)
式中 A 表示模型的预测结果, B 表示真实结果。从公式中可以看出, HD 比较关注真实 边缘与分割边缘的距离,HD值越小,表示分割效果越好;HD值越大,表示分割效果越 差。
4.5.3 实验结果分析
本节将从与其他方法对比、消融实验、不同网络结构上的精度、不同预算下本章方 法的效果和分割结果定性比较五个方面验证本章算法的有效性。
4.5.3.1 与现有方法比较
为了验证本章提出方法的有效性,将提出的方法与当前先进方法进行对比。因为无 源主动域适应任务由无监督域适应演变而来且其中样本选择策略在主动学习中也被使 用,所以本节除了对比无源主动域适应方法,也比较了无监督域适应和主动学习的方 法。 ERM 是不使用任何策略的方法。 AdvEnt 和 BEAL 是无监督域适应方法。 CEAL 和 BALD 是主动学习方法。 SALAD 和 RIPU 是无源主动域适应方法。
ERM:该方法不使用任何策略,直接将源域上预训练的模型使用在目标域上。
AdvEntE 1:该方法指出UDA任务中,源域上的模型在目标域上效果差与模型在目 标域上预测结果熵值增加有关。对每个像素预测的结果熵进行约束,通过降低目标域上 的预测熵值,可提升模型在目标域上的精度。
BEAL[74]:该方法指出在UDA任务中,源域上训练的模型在目标域的边界分割上 很模糊、不准确,并且模型在目标域上产生熵高的不确定性预测。因此该算法既约束目 标域预测熵,又提出一个边界驱动的对抗模型,加强模型对边界区域的预测。
CEAL[75]:在测试阶段不固定Dropout的丢弃概率,而是使用Dropout产生多次随 机预测结果,根据偏离均值的程度确定像素的不确定度,然后计算像素到轮廓的距离 将距离乘上不确定性得到最终的不确定性,最后选择不确定性大的样本进行标记。
51
bald[76]:在训练时使用贝叶斯分类器。贝叶斯分类器学习网络参数的分布,多次 采样网络参数可得到多个预测结果,平均后得到每个像素的预测结果。使用预测的最大 概率减第二大概率作为像素的不确定性,选择不确定性大的样本进行标注。
SALAD[77]:该方法将网络结构分为编码器和任务头(TaskHead)两个部分,通过 约束源域和目标域编码器提取特征之间的欧式距离解决域偏移的问题。在选择样本时 选择熵值大的样本给人工标注。
RIPU[64]:该方法在前人的基础上,不仅考虑像素的不确定性,还将图片划分成不 同子集的区域,考虑每个区域的纯度。选取不确定性高、纯度低的样本标注。
PLDA:本章提出的基于块级数据选择的无源主动域适应医学影像分割算法。
上述模型均是以 ResNet50 为骨干的 DeepLabV3+ 网络,且均使用 ImageNet 上预训 练的模型参数初始化模型。无源主动域适应方法的预算均为 5%的样本。表4.3和表4.4中 最大值用粗体标出,第二大值用下划线标出。Di T Dj表示Di为源域,Dj为目标域。
表4.3 现有的不同种类的方法在眼底数据集上的分割结果
方法种类 方法名称 Dice (f) HD( )
D1 T D2 D1 T D3
D1 T D2 D1 T D3
无迁移 ERM 0.712 0.803 30.42 29.83
AdvEnt 0.769 0.818 19.11 19.38
无监督域适应 BEAL 0.807 0.851 20.11 18.12
CEAL 0.728 0.813 21.95 21.11
主动学习 BALD 0.765 0.834 20.06 18.08
SALAD 0.773 0.838 21.76 20.89
无源主动域适应 RIPU 0.769 0.809 22.01 21.74
PLDA 0.794 0.841 19.34 20.47
从表4.3和表4.4中可以发现本章提出的方法远远优于主动学习的方法,也优于同类 型其他的无源主动域适应方法。在眼底分割数据集中,本章方法已经十分接近无监督域 适应的方法,精度只相差千分位,在前列腺分数据集上的 Dice 值超过无监督域适应方 法。这说明本文提出的块级数据选择策略可以有效选出提升模型精度的数据,提出的动
52
表4.4现有的不同种类的方法在前列腺MRI数据集上的分割结果
方法种类 方法名称 Dice(f) HD(J)
无迁移 ERM 0.594 17.66
AdvEnt 0.739 14.19
无监督域适应 BEAL 0.723 13.43
CEAL 0.689 13.85
主动学习 BALD 0.722 14.47
SALAD 0.713 12.07
无源主动域适应 RIPU 0.731 12.93
PLDA 0.748 12.45
态阈值伪标签生成方法可以有效挖掘无标签样本中蕴含的数据信息,提出的知识蒸馏方 法可以有效迁移预训练模型中蕴含的源域知识。
4.5.3.2消融实验
本节在两个数据集上做了消融实验验证块级数据选择策略、动态阈值伪标签生成策 略和知识蒸馏损失的有效性,在表4.5中展示了不同策略下,在两个数据集上的Dice分 割结果。
表 4.5 样本选择、伪标签生成和知识蒸馏的消融实验结果
眼底数据集
方法名称 样本选择 伪标签生成 知识蒸馏 前列腺数据集 Di T D2 D1 T D3
ERM X X X 0.594 0.712 0.803
✓ X X 0.711 0.763 0.822
PLDA ✓ ✓ X 0.729 0.782 0.837
✓ ✓ ✓ 0.748 0.794 0.841
从表4.5我们可以发现:(1)对比表中第1,2列数据,可以发现相比与不用任何策略
的ERM方法,样本选择策略在三个任务上分别提升0.117、0.051和0.019的Dice值,
53
有效提升模型的分割精度。 (2). 对比第 2,3 列可以发现三个任务上 Dice 值均上升,说明 伪标签生成策略可有效挖掘无标注数据中蕴含的信息,提升模型分割精度。 (3). 对比 3,4 列可以发现,模型蒸馏策略可有效模型分割效果,说明该策略可将预训练模型中蕴含的 知识迁移到目标域中。
4.5.3.3 不同网络结构上的精度 为了验证本章提出的方法在不同网络结构上都有效果,分别使用 Unet[7]、ResUnet[78]
DeepLabV3[5]和DeepLabV3+[6]网络在前列腺数据集上做了相关实验,统计每种网络结 构下分割的 Dice 值,实验结果如4.6所示。
表4.6使用不同网络结构的本文方法在前列腺MRI数据集上的分割结果
Unet[7] ResUnet[78] DeepLabV3[5] DeepLabV3+[6]
ERM 0.573 0.607 0.585 0.594
PLDA 0.736 0.745 0.742 0.748
从表4.6中可以发现该方法在四个不同的网络结构上都可以提升模型预测的 Dice 值。其中,在使用 DeepLabV3+ 作为骨干网络的模型上提升效果最明显, Dice 提升0.19 在使用 ResUnet 作为骨干网络的模型上提升效果最差, Dice 提升 0.138。说明本章提出 的方法在不同网络结构上都有效。
4.5.3.4 不同块大小对精度的影响
本节探索了块的大小对模型精度的影响。图4.2中横坐标是以一个块的大小,这里 使用以 2 为底的对数表示,纵坐标是分割指标 Dice 值。
我们可以发现,在一定范围内,随着块的大小不断增加,模型的精度越来越高。这 是因为,当块太小时,模型挖掘的边界信息不足,按照边缘程度选择数据的策略未生效 随着划分的块越来越大,模型的精度开始下降。这是因为,当块太大时,一个块内的像 素变多,表示边缘程度的指标开始不敏感。
54
4.5.3.5不同预算下本章方法的效果
本节探索了不同预算对模型精度的影响。图4.3中横坐标是目标域中预算样本占总 体样本的百分比,纵坐标是分割指标Dice值。
图4.3使用不同标注预算在前列腺MRI数据集上的实验结果
我们可以发现随着预算的增加,模型的精度也越来越高,当预算达到10%时,模型 精度已经达到无监督域适应方法的水平。当预算达到一定程度后,模型精度的提升也开 始放缓,这是因为当预算达到一定程度时,有标签数据和伪标签数据已经几乎蕴含源域 数据的全部信息,也证明了我们提出的方法可以有效挖掘目标域数据中蕴含的信息。
55
4.5.3.6 分割结果定性分析
为了定性对比不同方法的效果,在眼底分割和前列腺MRI两个数据集上,从每类方 法中选择一个方法的分割结果可视化。这些方法分别是 ERM、BEAL、BALD 和 PLDA 方法,同时将样本的真实标签 (GT) 也放到可视化对比中。为了方便观察,本节展示关 键分割区域裁剪后的可视化结果。
从图4.4和图4.5中,我们可以发现,在所有方法中, ERM 方法分割边缘十分粗糙 分割效果很差;TSP方法相比ERM方法,物品边缘分割效果有进一步提升;主动学习 BALD方法相比ERM,分割更贴近真实物体;BEAL和我们提出的方法,物体分割边缘 平滑,很接近真实标签。
(a) ERM (b) BEAL (c) BALD (d) PLDA (e) GT
图4.4眼底数据集上Di t D3任务上不同方法的分割结果可视化
(a) ERM (b) BEAL (c) BALD (d) PLDA (e) GT
图 4.5 前列腺数据集上不同方法的分割结果可视化
4.6 本章小结
本章首先指出当前医学影像分割面临的难题,研究人员针对这些难题提出的解决方
法,指出现存方法的不足之处以及本章的解决方法。
然后在 4.2 节中详细介绍了基于无源主动域适应的医学影像分割任务的定义、难点
以及针对难点本文提出的解决方案。在 4.3 节中详细介绍了本章算法的网络结构、数据
56 选择模块、伪标签生成模块和模型训练流程。在 4.4节中详细介绍了用到的分割损失以 及蒸馏损失。
最后在4.5节中介绍实验。在 4.5.1节中详细介绍了使用的公开的眼底影像分割数 据集和前列腺 MRI 分割数据集。在 4.5.2 节中介绍了实验设置和使用的评价指标 Dice 和 HD 。在 4.5.3 节中从与其他方法对比、消融实验、不同网络结构上的精度、不同大小 块对精度的影响、不同预算下本章方法的效果和分割结果定性分析五个方面验证本章提 出算法的有效性。
57
5总结和展望
5.1 本文工作总结
目前,基于深度学习的方法在医学影像分类和分割任务上已经取得令人瞩目的成 绩,但是这些方法在临床应用时仍然面临三个问题:(1)医学影像数据需要有丰富经验 的专科医生进行标注,获取大量有标注、高精度的医学影像数据集十分困难。(2)在实 际场景中,不同数据中心采集到的数据间存在域偏移问题,导致一个医疗中心上训练的 模型在另一个医疗中心上的性能下降。(3)医学影像包含患者隐私,导致共享医疗影像 数据变得十分困难。
为了解决这些问题,促进深度学习技术在医学临床中的应用。近几年来,研究人员 提出了许多方法,包括无监督域适应方法、无源域适应方法、域泛化方法和无源主动域 适应方法等。在这一研究背景下,针对样本标注困难和域偏移问题,本文提出了一个跨 层对齐的无监督域适应医学影像分类算法。在此基础上考虑医学影像数据的隐私保护问 题,提出了一个基于块级数据选择的无源主动域适应医学影像分割算法。本文的主要工 作包括:
1.通过统计实验分析了医学影像中的域偏移问题,指出医学影像中存在的亮度、噪 声、像素和颜色等特征分布差异。
2.基于跨层对齐的无监督域适应医学影像分类算法
首先使用特征映射模块将模型指定层网络中提取的语义特征映射到相同维度便于 后续对齐,然后使用动态注意力模块自动捕获不同跨层语义特征对之间的匹配度,最 后,语义跨层对齐模块结合特征对的匹配度计算 MK-MMD 距离对齐语义分布。在计算 MK-MMD 距离时,为了充分对齐语义信息,对齐同类别之间的 MK-MMD 距离并拉大 不同类别的 MK-MMD 距离。此外,在训练模型中加入了信息熵损失,提高了模型在目 标域的泛化能力。
在公开的多域胸部X射线和皮肤癌检测数据集上的实验结果证明,该算法能有效 解决域偏移和语义错位问题,在肺部疾病检测数据集上的平均分类精度为 0.765,在皮 肤癌检测数据集上的平均分类精度为 0.868。
58
3.基于块级数据选择的无源主动域适应医学影像分割算法
该方法包括块级数据选择策略、动态阈值伪标签生成策略和知识蒸馏。块级样本选 择策略结合医学影像分割任务中目标边缘难分割的特点,将医学影像划分为大小相同的 块,聚合块中每个像素的预测概率熵得到块的不确定性,使用基尼系数衡量块的混杂度 表示块贴近物体边缘的程度,结合不确定度和混杂度选择块进行人工标注。然后使用这 些数据训练模型,提高模型在目标域上的分割精度。其中动态阈值伪标签生成策略针对 每个类别动态调整阈值,根据阈值保留部分像素的伪标签用于模型训练,有效利用了无 标签数据。最后使用知识蒸馏损失约束目标域上的模型学习源域上预训练模型的预测结 果,减少预测结果的分布差异,将预训练模型中蕴含的先验知识迁移到到目标域上的模 型中,提升模型在目标域上的性能。
在公开的多域眼底图像分割数据集和前列腺 MRI 分割数据集上进行了实验,结果 验证了所提算法的有效性。预算用 5% 的数据标注时,眼底数据集上的 Dice 平均值为 0.818,在前列腺数据集上的 Dice 值为 0.748,接近甚至高于用所有源域数据训练的无监 督域适应的方法。
5.2 未来工作展望
本文主要研究基于无监督域适应的医学影像分类方法,以及由此延伸出的基于无源 主动域适应的医学影像分割方法。虽然本文提出的两个算法分别取得了不错的分类和分 割结果。但是都存在一些不足,在未来有待改进。
针对基于跨层对齐的无监督域适应医学影像分类算法,可以从如下角度改进:
(1) 本文使用的主干网络是在 ImageNet 自然图像数据集上预训练后的 ResNet50 网 络,但是由于自然图像和医学影像之间的成像方式不同,在自然图像上预训练的模型将 会忽略医学影像中独有的特征,影响模型的分类精度。未来可以考虑使用通用的医学影 像数据集预训练模型。
(2) 使用注意力机制得到的标量表示每对特征之间的匹配度,简单的一个标量值无 法有效表达语义特征之间复杂的匹配关系,未来可扩展为使用向量或者矩阵表示匹配 度,并将其融合到损失值计算中,可以更好的减少域间分布差异。
针对基于块级数据选择的无源主动域适应医学影像分割算法,可以从如下角度改
59
进:
(1) 文中使用 KL 散度约束目标域上模型和预训练模型的预测结果一致,来将预训 练模型中蕴含的先验知识迁移到目标域上的模型。这一操作仅仅从预测概率上进行约 束,没有考虑数据中包含的结构信息,未来可引入结构一致性约束来进一步挖掘预训练 模型中蕴含的先验知识。
(2) 目前的样本选择策略仅考虑医学影像分割中物品边缘难分割这一特点,未考虑 分割任务中相邻像素之间的空间关联性,未来可从该角度出发优化本文提出的样本选择 策略。
60
参考文献
[1]SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. 2017: 4278-4284.
[2]SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation [J]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014: 3431-3440.
[3]CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[C]//ICLR. 2015: 1-14.
[4]CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(4): 834-848.
[5]CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1-14.
[6]CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
[7]RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. 2015: 234-241.
[8]ZHOU Z, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, etal. Unet++: A nested u-net architecture for medical image segmentation[J]., 2018: 3-11.
[9]HUANG H, LIN L, TONG R, et al. Unet 3+: A full-scale connected unet for medical image seg- mentation[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020: 1055-1059.
[10]IRVIN J, RAJPURKAR P, KO M, et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison[C]//Proceedings of the AAAI conference on artificial intelligence: vol. 33: 01. 2019: 590-597.
[11]WANG X, PENG Y, LU L, et al. Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2097-2106.
[12]ORLANDO J I, FU H, BREDA J B, et al. Refuge challenge: A unified framework for evaluating automated methods for glaucoma assessment from fundus photographs[J]. Medical image analysis, 2020, 59: 101570.
[13]FUMERO F, ALAY0N S, SANCHEZ J L, et al. RIM-ONE: An open retinal image database for optic nerve evaluation[C]//2011 24th international symposium on computer-based medical systems (CBMS). 2011: 1-6.
[14]SIVASWAMY J, KRISHNADAS S, CHAKRAVARTY A, et al. A comprehensive retinal image dataset for the assessment ofglaucoma from the optic nerve head analysis[J]. JSM Biomedical Imaging Data Papers, 2015, 2(1): 1004.
[15]BLOCHN, MADABHUSHI A, HUISMAN H, et al. NCI-ISBI 2013 Challenge: Automated Segmentation ofProstate Structures.[J]. The CancerImaging Archive., 2015.
[16]LITJENS G, TOTH R, van de VEN W, et al. Evaluation ofprostate segmentation algorithms for MRI: the PROMISE12 challenge[J]. Medical image analysis, 2014, 18(2): 359-373.
[17]TSCHANDL P, ROSENDAHL C, KITTLER H. The HAM10000 dataset, a large collection ofmulti- source dermatoscopic images ofcommon pigmented skin lesions[J]. Scientific Data, 2018, 5.
[18]GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training ofneural networks[J]. The journal ofmachine learning research, 2016, 17(1): 2096-2030.
[19]KAMNITSAS K, BAUMGARTNER C, LEDIG C, etal. Unsupervised domain adaptation in brain lesion segmentation with adversarial networks[C]//International conference on information processing
61
in medical imaging. 2017: 597-609.
[20]WANG S, YU L, YANG X, et al. Patch-based output space adversarial learning for joint optic disc and cup segmentation[J]. IEEE transactions on medical imaging, 2019, 38(11): 2485-2495.
[21]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[22]CAI J, ZHANG Z, CUI L, et al. Towards cross-modal organ translation and segmentation: A cycle-and shape-consistent generative adversarial network[J]. Medical image analysis, 2019, 52: 174-184.
[23]LONG M, CAO Y, WANG J, et al. Learning transferable features with deep adaptation networks[C] //International conference on machine learning. 2015: 97-105.
[24]LONG M, CAO Z, WANG J, et al. Conditional Adversarial Domain Adaptation[C]//Advances in Neural Information Processing Systems: vol. 31. 2018.
[25]KANG G, JIANG L, YANG Y, et al. Contrastive adaptation network for unsupervised domain adap- tation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 4893-4902.
[26]WU F, ZHUANG X. CF distance: a new domain discrepancy metric and application to explicit domain adaptation for cross-modality cardiac image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(12): 4274-4285.
[27]FUGLEDE B, TOPS0E F. Jensen-Shannon divergence and Hilbert space embedding[J]. International Symposium onInformation Theory, 2004. ISIT 2004. Proceedings., 2004: 31-37.
[28]HERSHEY J R, OLSEN P A. Approximating the Kullback Leibler Divergence Between Gaussian Mixture Models[J]. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP '07, 2007, 4: IV-317-IV-320.
[29]GRETTON A, BOUSQUET O, SMOLA A, et al. Measuring statistical dependence with Hilbert- Schmidt norms[C]//International conference on algorithmic learning theory. 2005: 63-77.
[30]CHEN P, ZHAO R, HE T, et al. Unsupervised domain adaptation of bearing fault diagnosis based on Join Sliced Wasserstein Distance[J]. ISA Transactions, 2022, 129: 504-519.
[31]LIANG J, HU D, FENG J. Do we really need to access the source data? source hypothesis transfer forunsupervised domain adaptation[C]//International Conference on Machine Learning. 2020:60286039.
[32]HE Q, DAI Q, WU X, et al. A novel class restriction loss for unsupervised domain adaptation[J]. Neurocomputing, 2021, 461: 254-265.
[33]PERONE C S, BALLESTER P, BARROS R C, et al. Unsupervised domain adaptation for medical imaging segmentation with self-ensembling[J]. NeuroImage, 2019, 194: 1-11.
[34]SHANIS Z, GERBER S, GAO M, et al. Intramodality domain adaptation using self ensembling and adversarial training[G]//Domain Adaptation and Representation Transfer and Medical Image Learning with Less Labels and Imperfect Data. Springer, 2019: 28-36.
[35]LI X, DU Z, LI J, et al. Source-Free Active Domain Adaptation via Energy-Based Locality Preserving Transfer[C]//Proceedings of the 30th ACM International Conference on Multimedia. 2022: 58025810.
[36]KOTHANDARAMAN D, SHEKHAR S, SANCHETI A, et al. DistillAdapt: Source-Free Active Visual Domain Adaptation[J]. arXiv preprint arXiv:2205.12840, 2022.
[37]WANG F, HAN Z, ZHANG Z, et al. Active Source Free Domain Adaptation[J]. arXiv preprint arXiv:2205.10711, 2022.
[38]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.
[39]IOFFE S, SZEGEDYC. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. 2015: 448-456.
[40]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2818-2826.
[41]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
62
[42]CHENG J, TIAN S, YU L, et al. ResGANet: Residual group attention network for medical image classification and segmentation[J]. Medical Image Analysis, 2022, 76: 102313.
[43]SARWINDA D, PARADISA R H, BUSTAMAM A, et al. Deep learning in image classification using residual network (ResNet) variants for detection of colorectal cancer[J]. Procedia Computer Science, 2021,179:423-431.
[44]GOODFELLOWI, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications ofthe ACM, 2020, 63(11): 139-144.
[45]BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoderdecoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[46]PASCUAL S, BONAFONTE A, SERRA J. SEGAN: Speech Enhancement Generative Adversarial Network[C]//Interspeech. 2017: 3642-3646.
[47]CONTE G, WESTON A, VOGELSANGD, et al. Generative adversarial networks to synthesize missing T1 and FLAIR MRI sequences for use in a multisequence brain tumor segmentation model[J]. Radiology, 2021, 299(2): 313-323.
[48]CHENG G, JI H, HE L. Correcting and reweighting false label masks in brain tumor segmentation[J]. MedicalPhysics,2021,48(1):169-177.
[49]WILSON G, COOK D J. A survey ofunsupervised deep domain adaptation[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2020, 11(5): 1-46.
[50]GUAN H, LIU M. Domain adaptation for medical image analysis: a survey[J]. IEEE Transactions on Biomedical Engineering, 2021, 69(3): 1173-1185.
[51]李晶晶,孟利超,张可,等.领域自适应研究综述[J].计算机工程,2021, 47(6): 13.
[52]JAVANMARDI M, TASDIZEN T. Domain adaptation for biomedical image segmentation using ad- versarialtraining[C]//2018IEEE15thInternationalSymposiumonBiomedicalImaging(ISBI2018). 2018:554-558.
[53]STAAL J, ABRAMOFF M D, NIEMEIJER M, et al. Ridge-based vessel segmentation in color images ofthe retina[J]. IEEE transactions on medical imaging, 2004, 23(4): 501-509.
[54]HOOVER A, KOUZNETSOVA V, GOLDBAUM M. Locating blood vessels in retinal images by piecewise threshold probing of a matched filter response[J]. IEEE Transactions on Medical imaging, 2000, 19(3): 203-210.
[55]YAN W, WANG Y, XIA M, et al. Edge-guided output adaptor: Highly efficient adaptation module for cross-vendor medical image segmentation[J]. IEEE Signal Processing Letters, 2019, 26(11): 15931597.
[56]YANG S, ZHOU X, WANG J, et al. Unsupervised domain adaptation for cross-device OCT lesion detection via learning adaptive features[C]//2020 IEEE 1 7th International Symposium on Biomedical Imaging (ISBI). 2020: 1570-1573.
[57]REN S, HE K, GIRSHICK R B, et al. Faster R-CNN: Towards Real-Time Object Detection with RegionProposalNetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015, 39: 1137-1149.
[58]WOLLMANN T, EIJKMAN C, ROHRK. Adversarial domain adaptation to improve automatic breast cancergrading in lymph nodes[C]//2018IEEE 15thInternational Symposium on BiomedicalImaging (ISBI2018).2018:582-585.
[59]MANAKOV I, ROHM M, KERN C, et al. Noise as domain shift: Denoising medical images by unpaired image translation[G]//Domain adaptation and representation transfer and medical image learning with less labels and imperfect data. Springer, 2019: 3-10.
[60]ZHANG T, CHENG J, FU H, et al. Noise adaptation generative adversarial network for medical image analysis[J]. IEEE transactions on medical imaging, 2019, 39(4): 1149-1159.
[61]TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: Maximizing for domain invari- ance[J]. arXiv preprint arXiv:1412.3474, 2014.
[62]LONG M, ZHU H, WANG J, et al. Deep transfer learning with joint adaptation networks[C]// International conference on machine learning. 2017: 2208-2217.
[63]SUN B, SAENKO K. Deep coral: Correlation alignment for deep domain adaptation[C]//European conference on computer vision. 2016: 443-450.
63
[64]XIE B, YUAN L, LI S, et al. Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 8068-8078.
[65]CHEN D, MEI J P, ZHANG Y, et al. Cross-layer distillation with semantic calibration[C]// Proceedings of the AAAI Conference on Artificial Intelligence: vol. 35: 8. 2021: 7028-7036.
[66]YUAN J, MA X, CHEN D, et al. Collaborative Semantic Aggregation and Calibration for Separated Domain Generalization[J]. arXiv e-prints, 2021: arXiv-2110.
[67]MAHAPATRA D. Unsupervised domain adaptation using feature disentanglement and gcns formed- ical image classification[J]. arXiv preprint arXiv:2206.13123, 2022.
[68]ZHOU W, YANG D, WU B, et al. Contrastive Centroid Supervision Alleviates Domain Shift in Medical Image Classification[J]. arXiv preprint arXiv:2205.15658, 2022.
[69]MA X, ZHANG T, XU C. Gcan: Graph convolutional adversarial network for unsupervised domain adaptation[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 8266-8276.
[70]DENG W, ZHENG L, SUN Y, et al. Rethinking triplet loss for domain adaptation[J]. IEEE Transactions on Circuits and Systems forVideo Technology, 2020, 31(1):29-37.
[71]VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE.[J]. Journal of machine learning research, 2008, 9(11): 2579-2605.
[72]LIUQ,CHENC,QINJ,etal. Feddg: Federated domain generalization on medical image segmentation via episodic learning in continuous frequency space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1013-1023.
[73]VUTH,JAINH,BUCHERM,etal. Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 2517-2526.
[74]WANG S, YU L, LI K, et al. Boundary and entropy-driven adversarial learning for fundus image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. 2019: 102-110.
[75]GORRIZ M, CARLIER A, FAURE E, et al. Cost-effective active learning formelanoma segmentation [J]. arXiv preprint arXiv:1711.09168, 2017.
[76]GHOSHAL B, SWIFT S, TUCKER A. Bayesian Deep Active Learning for Medical Image Analysis [C]//International Conference on Artificial Intelligence in Medicine. 2021: 36-42.
[77]KOTHANDARAMAN D, SHEKHAR S, SANCHETI A, et al. SALAD: Source-free Active LabelAgnostic Domain Adaptation for Classification, Segmentation and Detection[J]. arXiv preprint arXiv:2205.12840, 2022.
[78]XIAOX,LIANS,LUOZ,etal. Weighted Res-UNet for High-Quality Retina Vessel Segmentation[C] //2018 9th International Conference on Information Technology in Medicine and Education (ITME). 2018:327-331. DOI: 10.1109/ITME.2018.00080.