目录
第一章绪论 1
1.1研究背景及意义 1
1.2研究现状 2
1.2. 1自然图像的自监督学习 2
1.2.2医学影像的自监督学习 2
1.3研究内容及工作 5
1.4论文组织结构 5
第二章 对比重构自监督模型 7
2.1问题分析 7
2.1. 1数据增强 7
2.1. 2重构模型 8
2.2融合编码器解码器的对比重构自监督模型 8
2.2. 1数据增强与基础网络相关知识 8
2.2.2多方位随机擦除数据增强 14
2.2.3多方位随机擦除数据增强 16
2.3实验与分析 18
2.3.1数据集介绍 18
2. 3.2实验设计 19
2. 3.3比较实验 19
2.3.4消融实验 22
2.4本章小结 25
第三章 多步自监督预训练策略用于肺部疾病分类 27
3.1问题分析 27
3.2多步自监督预训练策略 28
3.2.1自监督相关知识 28
3.2.2多步自监督预训练策略 33
3.3实验结果与分析 36
3.3.1数据集介绍 36
3.3.2实验评估 36
3.4本章小结 39
第四章基于自监督的医学影像智能分类系统 41
4.1需求分析 41
4.2系统整体设计 41
4.3系统开发环境 42
4.4功能模块介绍 42
4.4. 1前端界面展示 42
4.4.2网络传输 44
4.4.3后端分割结果展示 45
4.4.4数据保存模块 46
4.5本章小结 47
第五章 总结和展望 49
5.1论文总结 49
5.2未来工作展望 50
参考文献 53
致谢 61
攻读学位期间发表的学术成果 63
第一章绪论
1 - 1研究背景及意义
随着社会信息化的深入发展,医学水平在不断提高,医学数据尤其是医学影像是 其中最重要的部分。据统计,有将近90%的医疗数据来自医学影像,是疾病筛查和诊 断的最主要信息,也是辅助临床疾病诊疗的重要手段。现代医疗越来越依赖医学影像 数据进行疾病诊治,80%左右的临床问题需要影像检查才可以获取准确的诊断结果,目 前医疗影像的市场规模已经达到673亿美元。然而中国医疗行业每年的误诊人数将近 6000万,其中恶性肿瘤误诊率达到了 40%o所以医学影像分类因其重要性具有广阔的 临床应用前景。
在2012年ImageNet图像识别大赛上,AlexNet的夺冠证明了深度学习算法的强大, 也使其再次吸引了学术界和工业界的关注。传统的人工分类方法因为专家的数量较少, 难以承受海量的医学影像数据标注,且长时间的工作会降低准确率。但深度学习的出 现大大缓解了人工方法遇到的难题,深度学习应用训练好的网络模型可以自动对海量 医学影像进行分类,强大模型的准确率可以轻松超越人工方法并保持稳定。从深度学 习这几年在医学领域的研究来看,已经在各种疾病的分类诊断上显示出良好的性能 [70,71,72]
O
然而,现有很多医学影像深度分类模型复杂度高,训练严重依赖手工标签并且易 受攻击⑴。与自然图像不同,医学影像因其独特性需要有专业知识的医生进行标注。所 以十分昂贵极难收集,还会涉及到患者的隐私问题。现实中大部分的医学影像往往都 是无标签的,随着数据的增加这个问题会更加突出,严重阻碍了医学影像在深度学习 上的发展。如何缓解深度网络模型对标注数据的依赖成为国内外学者关注的重点。
自监督学习作为一种深度神经网络的无监督预训练范式,成为解决上述问题的有 效途径,受到了深度学习领域学者的广泛关注。自监督通过设计辅助任务学习图像的 视觉特征,它可以将数据本身作为强大的监督信号,在不需要外部标签的情况下为网 络训练提供标注,通过挖掘图像数据的内部信息完成设计的任务,生成跟视觉特征相 关的语义标签,以学习丰富的图像表征。再应用于下游分类任务提高准确性。在以后, 自监督会越来越多应用到医学影像上。
对比自监督是自监督学习在近几年发展起来的一个重要分支,它源自于对比学习, 获取样本的增强版本得到正例,其它不同图像作为负例,增加正例之间相似性并对负 例进行区分来学习图像一致性。基于对比学习的自监督方法在性能上已经超过很多其 它自监督方法[£29,32,3現其在自然图像上的优异表现为医学影像的研究和应用提供了重 要的借鉴意义,目前已经有学者将对比自监督初步应用于医学影像分类任务,在多种 医学影像分类任务中取得了不俗的效果。因此,使用对比自监督方法在无标签的情况 下学习医学影像特征,并用于提高医学分类任务准确性,在理论和应用方面具有重要 意义,是本文要研究的主要内容。
1 ■ 2研究现状
1.2.1自然图像的自监督学习
在图像识别领域,深度学习方法已经领先于传统的手工方法〔I。】或别的机器学习方 法[11] O然而图像数据的爆炸增长和数据标签缺失的问题严重阻碍了有监督深度学习的 发展,自监督解决了这个问题。自监督学习可以利用图像本身的信息作为监督信号进 行学习,理论上可以使用无限的数据,使用设计的辅助任务学习图像的丰富特征,然 后用于下游分类任务提高网络性能。
过去几年里,有许多自监督学习方法作为代理任务被相继提出,比如相对位置预 测⑸、拼图⑹、图像修复⑺、图像着色⑻和旋转预测[9],还有何凯明前不久提出的 MAE0]自监督策略,这些经典方法的提出大大促进了自监督学习的发展。基于这些方 法,一些人进行了不同程度的改进。kim等人M2]提出一种新的自监督任务“完成受损拼 图J将三种自监督任务拼图、着色和图像修复结合在一起并将每个任务复杂化,即对 图像进行更深程度的破坏,增加网络学习的难度使其学习更丰富的图像特征。Feng等 人[⑶让网络学习图像旋转相关和不相关性,其模型分为两部分,一部分预测图像旋转, 另一部分针对旋转变化不大的图像通过缩小同一图像不同旋转角度特征的距离学习旋 转不变性,使模型具有更好的泛化能力。韩派等人在经典的旋转预测任务上进行创 新,来改进GAN的生成器和鉴别器的性能,使其更好把握图像特征,在很多数据集上 有不弱的表现。
针对对比自监督学习,Ye等人[69】提出了一种基于实例的softmax无监督嵌入学习 方法,利用实例监督近似正例,分离负例,可以学习数据增强不变量和实例扩展特征。 目前自监督在自然图像识别领域的应用已经十分广泛。Oord等人在视频序列上做自 监督学习,提出无监督框架从高维序列数据中提取表征信息,将上下文表征信息和未 来时刻样本表征信息进行对比,获取最能预测未来的关键信息。
1.2.2医学影像的自监督学习
医学图像在自监督中的应用有两种方式,一种是利用医学领域和计算机视觉的专业知 识⑵,为目标任务设计新颖的代理任务[14-161。还有一种是采用预先设计的代理任务, 或开发这些任务的修改版本用在医疗环境中,这也是本文的研究方向。目前很多学者 基于设计好的代理任务研究医学影像。鉴于不同序列可以获得互补信息,为了减少人 工标注多序列图像,Wang等人^提出新的自监督学习方法MI-SelfL结合其他方法通过 探索多序列医学图像之间的内在联系和互补性挖掘未标记数据,可以提高基线模型的 性能。Zhuang等人提出了一种新的自监督策略-魔方恢复[⑻来学习三维3维医学图像表 征,图像被划分成像魔方一样的小立方体,并使用立方体重排和立方体旋转两个操作 迫使网络学习数据特征。之后,Zhu等人[19】在魔方恢复基础上加入了魔方掩蔽来掩盖立 方体部分信息,增加了复杂性。Li等人[20]提出了一个多示例学习(MIL)框架对COVID- 19进行分类识别,在MIL中引入两种自监督策略-相对位置预测和绝对位置预测(任选 其一使用)辅助MIL框架学习图像表征提高所提方法的分类准确率。Zhao等人Bl提出 SALAD异常检测框架,它在图像和潜在空间中分别编码进行图像重构和特征重构挖掘数 据中的有用信息,并提出结构相似性损失和中心约束损失来规范跨空间平移学习平移 一致性。此外,为使模型更好的学习特征,作者在图像空间加入自监督学习模块,使 用修复、像素抖动等几种策略辅助模型学习。为区分异常视网膜疾病,防止不同的旋 转产生不同的结果,Li等人Qi在用旋转预测任务学习图像特征的同时,加入了多视图 实例识别任务。学习与输入图像增强版本相似但与其他图像不同的特征表示,得到旋 转不变性。
除了普通的自监督方法,很多人也将对比自监督用于医学领域。Jamaludin等人审】 利用纵向脊柱MRI扫描作为自监督对比代理任务,根据时间上的差异,将同一病人在 不同时间(某一时间间隔内)的两个锥体MRI扫描进行对比学习,并使用交叉嫡损失 将椎体扫描分为7类,优于随机初始化的模型。Li等人©I先训练CycleGAN从眼底彩 色图像生成相应FFA模态,在只有眼底图像数据时所提方法也可以正常使用。在框架 中,每个病例的眼底图像、相应FFA,眼底图像增强版本作为一个类别一起输入神经 网络学习高级特征,通过对比使同一病例的图像特征更加接近,并与不同病例分离, 可以学习模态不变特征和病人相似性特征。为保持图像的最大信息,Zhuo等人在提出 的PCRL框架Ml中引入了对比学习框架中包含三个编码器(只有一个从头开始训练) 学习医学影像表征。框架中加入了队列存储过去的表征来进行对比以获得最大的信息, 队列中的所有特征都为负样本。文中还使用了重构损失,使用其中两个编码器对图像 进行重构学习更多的医学图像特征。
近几年,因为对比自监督的火热,许多经典对比自监督方法喷涌式出现,展现出强大 的性能。比如MoCo[28]> SimCLR[29]和这两种方法的改进版本师刖、还有BYOL[32]> SWAV®]等,被视为对比自监督的代表之作,很多学者也开始将这些方法与医学影像
分类任务进行结合。Chen等人师]针对缺乏标记的少样本数据集,提出实例识别任务和 端到端的框架学习图像特征,并用数据增强扩充数据集。对于分类任务,将数据分为 支持集和查询集,支持集构成原型网络对查询集中的图片进行分类,该方法可以用于 数据量较少的样本,但精度在89%左右,并不是很高。Liu等人皿提出一种密集导联对 比(DLC)方法,用于多导联心电图对比学习。该方法从不同角度对任意两个导联之间进 行对比学习,以探索导联间和导联内的不变性。此外DLC还引入了多分支网络(MBN)为 导联生成表示并将所有导联融合为全局表示以提升表现。Sowrirajan等人[河提出MoCo- CXR将MoCo用于胸部x射线病理检测,针对用到的医学数据集分析了所用的数据增强 方法和模型。MoCo对无标签大型胸片数据集进行自监督预训练,然后用于少量标签的 目标数据集微调,证明了模型适用于不同病理且具有可转移性。但没有使用精度指标 表现模型的性能。将MoCo-CXR作为早期工作,Vu等人厲]提出了一种新的数据增强方 式-MedAug,它要求对于特定病理,不同视图必须来自同一病人,利用患者的元数据, 比如研究数量和偏侧性等创建适当的正例对。MedAug将医学知识用于算法中,而不是 普通的数据增强。Sriram等人阳使用公共数据集的非COVID-19胸片图像对MoCo进行 预训练。作者定义了包括单图像预测、需氧量预测和多图像预测三个下游任务来预测 COVID-19患者病情恶化。其中多图像预测用到一系列时间索引胸部射线图像,并将 MoCo编码器应用于每幅图像学习图像表示。Azizi等人so】采用了SimCLR对比学习框架, 并引入了新的多示例对比学习(MICLe), MICLe与SimCLR非常相似,使用同一病人 某一特定病理的多种视图作为正例输入,而SimCLR对一张图像进行两次数据增强作为 正例,两者结合使用。但文章并没有考虑SimCLR中的数据增强是否适用于医学图像, 只进行了少量的修改,精度也只在70%左右,并不是非常令人满意。
上述这些研究将对比学习和医学影像进行结合,但很多方法是将提出的一些对比自 监督模型直接拿来用于训练医学影像,而这些对比模型的提出是针对自然图像的,用 于医学影像可能会无法充分学习图像特征。从上面一些研究的实验结果也可以看出, 分类精度达到90%以上的不多。所以。将对比自监督模型进行改进用于医学影像是有 意义的,这也是本文的目的。
综上所述,对比自监督方法越来越多的应用于医学影像分类任务,这是非常有现 实意义的研究方向。
1.3研究内容及工作
本文的主要研究是将对比与重构方法结合针对医学影像进行分析从而对医学影像 分类的应用。本文利用改进的数据增强对数据集进行扩充并迫使网络更好的进行学习, 并提出图像重构模块优化模型学习更丰富的图像表征,经过预训练提取特征后通过迁 移学习用于下游分类任务。本文在多个数据集上进行了实验,实验表明所提的方法相 较于基线性能都有所提高,与一些其它经典算法相比具有一定的优势。
本文主要的工作和研究如下:
(1)针对对比自监督模型用于医学影像分类精度不高问题,本文提出了多方位随机 擦除数据增强方法和对比重构自监督模型(CRSM)o多方位随机擦除是对"Random Erasing"的改进,缩小了擦除区域的面积并增加了区域数量,提升方法的灵活性。然 后在对比方法SimCLR基础上引入了图像重构模型,即加入与编码器相对应的解码器 对图像进行重构,通过实验证明CRSM能提升模型精度。
(2)针对CRSM模型泛化性不足且想进一步提升精度,本文提出多步自监督预训练 策略,使用CheXpert数据集和目标数据集对模型进行多次预训练。经过两次预训练用 于下游目标数据集分类任务可以进一步提升精度,为了验证模型泛化性在使用大型数 据集预训练后直接用于目标数据集的下游分类任务,实验证明CRSM针对胸部疾病数 据集有一定的泛化性。
(3)为了帮助医生快速对医学影像进行诊断,本文设计了一个自监督医学影像智能 分类系统。该系统是在labelme人工标注软件的基础上进行开发的,对CRSM进行两 次预训练,然后用所得模型参数初始化下游任务网络模型进行有标签训练,最后将人 物模型嵌入到后端框架中,使用服务器运行后端框架对前端图像进行判别,即医学影 像分类。该系统应用了前面所提的方法,精度可达95%以上,可以达到帮助医生快速 精准诊断的目的。
1 • 4论文组织结构
本文的章节安排如下,共由五章组成:
第一章,绪论。本章介绍了基于对比自监督的医学影像分类课题研究的背景、目 的和意义,表达了本课题的重要性。然后介绍了自监督和对比自监督在医学影像领域 国内外的研究现状,最后说明了本文想解决的问题及研究内容和贡献。
第二章,对比重构自监督模型。这一章提出了多方位随机擦除方法和对比重构自 监督模型。多方位随机擦除方法在原始随即擦除上进行了改进,使其更适合医学影像。 然后在SimCLR对比方法基础上引入了重构模块作为新的自监督代理任务,共同学习 图像特征。
第三章,多步自监督预训练策略。为了进一步提高对比重构自监督模型在肺部疾 病目标数据集上的分类精度,提出了多步自监督预训练策略,通过对模型进行包含大 型数据集的多次预训练可以提升模型在肺部数据集上的分类精度。并且通过实验也证 明了大数据集预训练得到的模型对于不同的胸部疾病数据集具有一定泛化性
第四章,系统的设计和实现。本章将所提对比重构自监督模型用于医学影像智能 分类系统以达到将模型用于实际问题的目的,先是说明了系统在医学场景下的需求, 然后介绍了系统的整体框架,包括前端界面展示和后端服务器之间的运行和数据传输, 该系统可以达到预期的结果。
第五章,总结与展望。本章对本文所做的全部工作进行了回顾,分析了在工作中 还有哪些缺点与不足,找到以后需要改进的地方。并在本文所做的工作之上进行了延 申,还有哪些问题没有被解决,以此明确了以后可以研究的方向。
第二章对比重构自监督模型
本章针对医学影像分类任务在SimCLR对比方法基础上提出了多方位随机擦除数 据增强和图像重构模型,使对比重构模型在医学影像分类中可以有更好的性能。本章 先是进行了问题分析,对于为何要引入多方位随机擦除和图像重构模型做了阐述,并 对涉及到的相关知识进行了介绍。然后详细说明了所做的工作,最后通过实验验证了 所提出方法的有效性。
2.1问题分析
这一小节对引入数据增强方法和模型的原因分别进行了问题分析。
2.1.1数据增强
数据增强方法在对比自监督中得到广泛应用,对比方法需要数据增强对图像进行 扩充和变换,产生不同版本的图像与原图比较增进相似度,并与其它图像进行分离。
因此,好的数据增强方法对对比学习至关重要,可以有效提升模型性能,所以本文引 入新的数据增强来优化对比模型。
“随机擦除”是一个用于自然图像的比较好的数据增强方法。它的原理很简单, 随机选择一块长方形区域,用去除像素点的方法抹除掉这块区域,并于原图进行比较,
使模型学习如何辨认出经过擦除图像的原貌并将图像恢复完整。该方法如图2.1所示。
图2.1随机擦除方法凹
Figure 2.1 Random erasing method
但可以发现。自然图像中物体所占面积都很大,用肉眼来看,擦除掉一大块区域后仍 可以很轻易的分辨出图像的物体是狐狸或是飞机。因为自然图像很多时候只是对生活 中某一物体的信息进行展示,非常简单,没有其它复杂因素参杂其中。而医学影像与 此截然不同,医学影像中展示的大部分是人体器官或更精细的人体组织,模型学习的 目的不是辨认这些器官或组织,而是判断这些器官或组织是否正常,是否有异常情况 的发生,即是否有病理的存在。但病理往往在医学影像中占据的面积较小,如肺部长 了一个很小的结节,小的病理可能会导致很大的问题,所以不可忽视。图2.1可以看 出,原始随机擦除方法会擦除掉一大块区域,由于是随机擦除不能控制擦除的区域, 若直接用于自然图像很可能会擦除掉关键病理信息,医学影像会因此失去意义,影像 模型的判断导致精度降低。
因此本文提出了多方位随机擦除,这是对上述随机擦除的改进,缩小了擦除的区 域面积并增强了区域的数量,使其可以出现在各个方位。可以有效解决上面的问题 2. 1.2重构模型
对比自监督很大程度上促进了自监督学习的发展,刚被提出在性能上就超过了其 它很多自监督方法,所在目前对比自监督已经应用于各个领域。对比学习的目标是通 过对比图像学习图像的不变表示,可以看作是一种隐式的方式来保留信息。尽管如此, 单纯使用对比估计来学习信息可能并不是最佳的。尤其是医学影像包含复杂的信息, 对比学习并不能完全满足需求。所以,引入显式方法学习更多图像信息是有必要,这 是对对比学习的一种补充。基于此问题,图像重构成为一种合适的解决方法,可以保 留与输入密切相关的信息。对比方法学习的是图像对之间的信息,重构学习的是每个 图象自身的信息。
在这里并不是对比方法和重构方法的简单叠加,而是有机融合。两个方法共享一 个编码器进行学习,这种学习是相辅相成的。对比方法训练模型,提升模型的图像重 构能力,而重构方法训练模型,提升模型对比图图像能力。两者互相进行学习可以快 速学到更多图像特征。
2.2融合编码器解码器的对比重构自监督模型
本节先是介绍了使用到的相关数据增强和基础网络知识,然后说明了本章的工作。
2. 2. 1数据增强与基础网络相关知识
(1)数据增强知识
数据增强是一种对图像进行特殊处理的方法,目前广泛应用于神经网络模型的训 练。通过对图像进行不同程度的处理,可以使网络模型更好的对图像进行学习。在预 训练阶段,对图像进行数据增强处理使同一个样本可以展现出各种不同的效果,模型 根据处理后的图像找到处理前的原图并进行对比增加相似度,来学习图像特征,且数 据增强对数据的扩充也可以让模型得到更多的训练,这无疑是有好处的。
本文使用的图像数据增强技术除了新引入的多方位随即擦除还包含翻转、旋转、 缩放、裁剪、添加噪声等几个方面,这些最基础的几种方法。如图2.2所示,展示了对 一张图像进行各种数据增强后的效果,图中使用了上述提到的所有方法,可以看出,
图像经过数据增强可以变得更加丰富,对于促进网络模型训练是十分有效的。
图2.2各种数据增强效果
Figure 2.2 Various data enhancement effects
其中缩放、裁剪、翻转、旋转是目前在图像任务中使用最广泛的几种数据增强方 法。在很多数据集中,图像的格式大小都是不固定的,模型对于这种情况无法处理, 所以就需要使用缩放将图像的大小都转换为统一的格式,方便模型进行训练。图像翻 转类似于镜像,有水平翻转和垂直翻转,也就是左右镜像和上下镜像。旋转更加简单, 就是对图像进行90、180或270。的顺时针或逆时针转动,而这种度数的转动时最常用 也是最简单的。随机裁剪也是一种很流行的方法,而且经常与缩放配合使用,随机裁 剪出图像的一部分并将其缩放到原图大小,裁剪图像的大小要选取合适的值,避免过 小而丢失了图像尤其是医学图像的重要病理信息。
添加噪声是对图像进行一种模糊处理,如图2.3所示。本质上就是改变图像的像素 值,比如高斯模糊使用正态分布给像素点分配权重,越靠近中心,权重就越高。根据 权重对每个像素进行重新赋值来达到模糊的效果。高斯模糊方法对图像进行模糊时, 对图像的模糊程度有一个比较好的限定,不至于使图像太过模糊而影响模型的训练, 所以高斯模糊使用较多。
(2)基础网络知识
在本章中,所用的模型是对比自监督方法SimCLR,这是一个很经典的对比自监
督方法被大量引用。本文将改进的数据增强算法应用于这个框架中,SimCLR方法的特 征学习器(编码器)选用的是ResNetlS,这是一个基于卷积神经网络的经典模型,一共 有18层,本小节将对ResNetl8中的卷积神经网络进行介绍。
1)卷积神经网络
卷积神经网络(后面简称CNN)其实是对生物神经元的模拟,将数据在神经元之间 进行传输来处理分析数据。它的特点是使用了局部连接和权值共享的方式使模型更加 简单且易于优化。该网络在计算机视觉和自然语言处理®皿]领域得到广泛使用,使机 器学习在图像方面有了更加迅猛的发展。目前大部分网络模型都是使用CNN作为基础 网络,CNN包括卷积层、池化层、激活函数等部分,下面我将一一介绍。
①卷积层
卷积层是卷积神经网络的核心层次。卷积层内部由若干卷积单元组成,每个卷积 单元中的参数需要通过反向传播算法优化更新。卷积层的作用是对输入数据进行卷积 操作,也叫滤波过程,一个卷积核就是一个窗口滤波器。卷积层内每个神经元都与前 一层位置接近区域的多个神经元相连,这个区域也被称为“感受野”。在网络训练过程 中,卷积核会对输入特征进行扫描,在感受野区域内对输入的特征进行矩阵乘法并叠 加偏置向量,目的就是通过运算得到特征映射,获取特征映射的公式如下:
= (2.1)
其中,加表示计算获取的特征映射,n则表示目前卷积层的第n个神经元,m是 对用的卷积层。公式右边,兀眷表示m层卷积层上对应(i,j)位置的输入数据,哪和 bf表示特征的权重和偏置矩阵。过程如图2.4所示,设置一个2*2的卷积核与图像特 征中相同区域的矩阵进行乘法操作得到一个数值,然后在图像特征中卷积核会进行滑
动窗口扫描完每一个特征得到全部数据。
2 * 1
9
图2.4卷积操作图
Figure 2.4 Convolution operation diagram
卷积后,
矩阵的大小, 原始输入矩阵会缩小一定的比例,所以在一些实际应用中,如果想维持 需要在卷积操作前对数据进行扩充,0填充是一种常见的填充方式。偏置
向量是为了与卷积后的数据进行线性加法。而为增加网络的非线性能力,应对数据进 行激活操作,即将没有用的数据撤销,剩下的可以输入神经元,使其产生反应。
②激活函数
激活函数的引入可以为神经网络带来非线性能力,这一点非常重要,因为神经网 络训练使用的大多数样本比如图像、视频等都是非线性样本。而线性模型无法学习和 模拟这种数据。神经网络中并没有专门的非线性层,其就等于是线性层的简单堆叠, 多层线性网络的简单堆叠完全可以用一个线性函数表示,那么网络的深度将没有任何 意义。为了解决这个问题,就引入了激活函数对线性模型非线性化,解决线性模型不 能解决的问题。激活函数在后面还可以将数据从非线性空间映射到线性空间,对数据 进行分类。
目前比较常用的激活函数有ReLU、tanh、sigmoid等,它们都有各自的特点,可 以解决不同的问题。
Sigmoid函数将值范围压缩到(0,1),符合概率分布的特点,可以在用于概率预测的 输出层中使用。优点是连续且处处可导,缺点是函数值接近0和1时函数梯度较小容 易造成梯度消失现象,该函数输出值恒为正,不以0为中心,会导致权值只往一个方 向更新,从而影响收敛速度。tanh又叫双曲正切激活函数,该函数将值的范围压缩到(- 1,1),其优点是输出值以0为中心,解决了 sigmoid函数权值只能朝一个方向更新的问 题,缺点是也会造成梯度消失。
ReLU[55]又叫修正线性单元或线性整流函数,表达式为(0,max),也就是说当值小于 0时全部取0,大于0的部分为X二y。这个特性可以去除数据中的冗余,最大可能保留 数据的特征,所以它的特点是具有稀疏性,也就是大多数值为0的稀疏矩阵。因此它 最大的优点就是计算量小,收敛速度快,在x>0区域不会出现梯度消失。现在大部分 网络使用的激活函数都是ReLUo
激活函数为特征图增加非线性特点来表达复杂特征,表达式如下:
(2-2)
f(・)表示用到的激活函数,笛加1就是对卷积获得的特征映射使用激活函数后的特征 图。
③池化层
经过卷积之后的数据维度会比较大,如果直接对这种数据进行处理,运算时间会 很长,数据会有冗余的问题。所以就需要池化层来对输入的特征图降维,一方面可以 简化网络计算复杂度,另一方面压缩提取主要特征。
池化操作一般分为两种,最大池化和均值池化。最大池化指选取图像中池化核区 域的最大值作为该区域池化后的值,在固定区域的几个之中最后只留下一个值。而均 值池化是计算图像中池化核区域的平均值作为该区域池化后的值。对图像进行维度压
缩,如图2.5所示。
图2.5两种池化操作
Figure 2.5 Two types of pooling operations
池化层有以下几种作用:(1)特征不变性,也就是图像处理时的特征尺度不变,类 似于图像的resize,比如一张猫的图像经过缩小后仍然能认出这是只猫,说明图像主要 特征还保留着,压缩去除的是一些无用的图像信息。(2)特征降维,一幅图像中往往包 含很多信息和特征,但是有一些信息在实际任务中并没有多大的用处,那么就可以将 这类冗余信息去除,抽取最重要的特征。(3)池化层在一定程度上可以防止过拟合,更 方便优化。
④softmax
在卷积网络中,softmax是非常重要且常用的函数,尤其是在本文所研究的图像分 类场景中使用更加广泛。它将输入映射为0-1之间的实数,并将输出归一化和为1,即 分类的概率之和为1。对于分类问题,每个输出的概率计算如公式2.3所示:
7=1
其中j表示分类的个数,式中表示这是一个三分类问题,Y表示输出的概率值,z 为输入到softmax函数中的数据,通过这个公式来计算每个输入的概率值,具体过程如 图 2.6:
输出层:softmax层
图2.6 softmax过程图
Figure 2.6 softmax process diagram
图中是一个三分类问题,输入样本通过模型进行预测,经过softmax层得到预测值,yl、 y2和y3分别为0.88、0.12和0,则表示模型对该样本的预测是概率为0.88的第一类。
2)损失函数
损失函数可以用来评价模型的预测值和真实值相差的程度,损失函数值越小,模 型的性能就越好。得到损失函数值后,模型会通过反向传播来更新模型中的参数,以 此降低预测和真实值的差距,经过不断的训练,预测值会慢慢向真实值靠拢,达到让 模型学习的目的。
在不同的模型中使用的损失函数一般也不同,在此介绍几种本文使用的损失函数。
1)交叉爛函数
交叉爛函数是卷积神经网络中最常用的分类损失函数,可以有效避免梯度消散。 它描述了实际输出和期望输出之间的相似度,交叉爛越小相似度越高,在正负样本分 布不均的分类问题中常用交叉癇函数,在二分类情况下也叫做对数损失函数。
N
L(yifW) = -^K10gf(^) (2.4)
i=l
2)均方误差函数(MSE)
在回归问题中,均方误差损失函数用于度量样本点到回归曲线的距离,最小化平方 损失使样本点更好地拟合回归曲线。均方误差越小,表明模型预测的越准确。MSE因无 参数、计算成本低等优点成为优秀的距离度量方法,公式如下:
1 N
L(ri(f(x))=-^(K-f(xO)2 (2.5)
n /=1
3)对比损失函数
从对比自监督方法流行以来,对比损失函数[何的使用也越来越多。对比损失函数 与其它损失函数的最大差别是它没有真实值即标签。函数中只有正例和反例,正例就 是当前的一行图像和它的增强图像,而反例则是其他图像和其他图像的增强版本。对
比损失公式如公式2.6所示。
exp(5zm(zz,z/)/^)
工::Ilk 工 f] exp(5zm(z/,乙)/ t)
(3)全连接层
全连接层位于卷积神经网络的最后,将卷积输出的二维特征转化为一维向量,可 实现端到端学习,简单说就是输入一张图像,输出一个向量,也就是将特征表示整合 成一个具体的值。全连接层中每个神经元与上一层所有神经元相连,因此这一层的参 数最多。
2.2.2多方位随机擦除数据增强
结合医学影像的特点,本节对原始的随机擦除数据增强算法进行了优化并起名为 多方位随机擦除,使其更加适合于医学影像,可以更好地辅助模型学习图像特征。
在原始的随机擦除算法中,擦除是有概率的,图像有0.5的概率会被擦除,0.5的 概率不变。而为了更多的使用随机擦除,即对每个图像使用这个方法,更好的学习特 征,将概率改为1,对每张图像都会进行擦除。对于一个批次中的一张图像X,经过擦 除,生成的图像包含随机位置和不同大小形状的遮挡。
随机擦除算法选择图像的某一矩形区域勒,对区域中的像素进行擦除。假设图像的 大小为£ =HXW,然后将擦除区域的面积设为%,并设置S< <Se < Sh, 2和%的值 是£的固定百分比。本文修改了£的范围值,大幅减小算法擦除的矩形区域的面积,降 低擦除区域会遮挡医学图像病理的风险。设“为矩形区域的纵横比,设置讥和已作为 re的取值范围,rl和r2的值与原始擦除中的相同。▲的大小高为二交云,宽为 ^e= 7Se/re °擦除区域的选取过程是这样的,在X中随机的找一个点Q(Xe,ye)f如果 Xe + < W且% + HeSH,即擦除区域不会超出图像的范围,则设定厶=
{xefyefxe + Wefye + He}为需要擦除的区域。否则就重复上面的过程,直到选出满足条 件的厶。对于人,其中的每个像素都会被赋予[0,255]的随机值。
在原始的随机擦除中,因为擦除的区域较大,所以只选择一个区域进行擦除,而 考虑到将擦除区域缩小后,如果还是只擦除一个区域,可能对图像的影响会降低很多, 与原图差别不大。所以本文将擦除的区域从一个变成四个,区域的生成则跟上面描述 的一样。在展现的效果中,图像的各个地方都有可能产生擦除区域,如图2.7所示,展 示了从原始随即擦除到多方位随机擦除的转变,这样的改进更增加了样本的丰富度和 灵活性。
图2.7原始随机擦除到多方位随机擦除
Figure 2.7 Original random erasing to multidirectional random erasing
在本文模型中,对比学习模块用到了包括多方位随机擦除方法在内的多种数据增 强方法,对图像进行一定程度的处理可以让模型更有效的进行学习,下面对用到的数 据增强方法进行介绍说明。
(1)随机裁剪数据增强。设置参数为256,即将原图像随机裁剪一部分并设置大小 为256*256。随机裁剪获取图像部分信息可以更加灵活学习,并且原数据集中很多图像 大小并不统一,使用随机裁剪可以将图像都设置为256*256。
(2)随机水平翻转。对图像进行水平翻转即将图像左右对调,反转和裁剪一般都会 配合使用,这里使用默认0.5的翻转概率,有一半的几率图像会被翻转。
(3)随机颜色抖动。这是通过改变图像的亮度、饱和度、对比度对图像进行改变, 看起来颜色会和原图像不一样,与上面两种方法相比颜色抖动属于强数据增强,因为 其更复杂,变换程度更大。所以本文设置其触发概率为0.8,使其更多用于图像中。
(4)随机灰度化。这是将图像颜色从三通道变为单通道,然后图像就会变成灰色, 这个数据增强是SimCLR基线网络中本来就有的。但因为本文所用医学图像大部分为 MRI图像,不包含其它颜色,所以将此数据增强的应用概率设置为0.2。
(5)高斯模糊。这是在数据增强中经常使用的一种数据增强方法,是强数据增强。
(6)多方位随机擦除。这是本文新引入的一种数据增强,在原始随机擦除上进行了 改进,使其更适合医学影像。对图像使用随机擦除覆盖部分区域更有利于模型学习, 所以在这里将其概率设置为1,即每个图像都会进行擦除。
(7)最后使用数据增强方法将每个图像改为张量模型就可以输入到模型中进行训练, 基本所有模型中都会使用该方法对图像处理,方便模型学习。
文中将一张图像输入后经过两次各种数据增强的处理,可以获得两张不同的图像, 因为大部分数据增强算法都设置了触发概率,每次处理可能会应用不同的数据增强。 而同一图像生成的两个不同数据增强版本即为正例,其它图像均为负例,然后使用正
例和负例进行对比学习。
2.2.3对比重构自监督网络模型
本小节对对比模型和引入的重构模型进行了介绍,包括工作原理和使用的损失函 数等。
⑴对比模型
本文使用的对比模型是SimCLR对比自监督方法,这也是论文中的基线网络,主 要是生成同一图像的两种数据增强视图然后通过对比损失最大化这两个视图之间的相 似性来学习图像表示。简单来说,就是让一个样本生成两个版本的增强样本,然后通 过编码器编码,最后使用投影头将编码表示映射到对比损失空间进行对比,来最大化 图像的一致性,在3.1节也将对其进行更多的介绍。SimCLR模型本来是用于自然图像 的,本文将其用于医学影像自监督训练,训练的大概过程如图2.8所示。
图2.8 SimCLR用于医学影像
Figure 2.8 SimCLR is used in medical imaging
首先给定一个批次的图像,批次的大小可以自定义选择,批次里的每张图像X使 用两次组合数据增强技术生成该图像的两种视图益和Xj,组合数据增强方法包含随机 裁剪、颜色失真、高斯模糊和上面提到的随机擦除方法等。然后,两张视图经过编码 器网络f(・)=氏(•)(对于编码器选择的是ResNet-18,目前大部分对比自监督方法 在编码器选择上都是ResNet系列网络)进行编码生成特征向量仏=f (益)和冋=g。 模型在这里用到了一个神经网络投影头°(・),可以将图像表示映射到对比损失空间,文 章中使用了一个隐层MLP,得到彳=9(屁)=“⑵只“⑴仏),其中/是一个非线性 ReLU[53],同样方法可以得到今,使用彳和勺在对比损失中进行比较。因为研究发现, 在zi上定义对比损失比在仏上更有益。
对比预测任务定义对比损失函数,给定一组样本,即一个批次样本{X订,其中包括 一对正例样本益和;Q。对比预测任务的目的就是在样本集中根据给定的益寻 找相对应的冯,反过来也一样。假设一个批次有W个样本,通过数据增强进行扩充,
得到2W个数据。一个图像的两个增强视图互为正例,批次内其它2(2-1)个样本视为 负例。设sim(s) = uTv/\\u\\\\v\\表示$归一化u和矽之间的点积。则正例样本(ij)之 间的对比损失函数如公式2.7所示。
Lc = -log存旳⑸罕誓)
Y址 Jgi]exp (sim(Zi,Zk)々)
其中I[k^ G {0,1}是一个指标函数,当k丰I时值为1, k = i时值为0,工表示温度 参数。在一个批次中,会计算所有正对QJ)和(A i)的对比损失。在原文中将此损失称 为NT — Xf尬(归一化温度尺度交叉爛损失)。
(2)重构模型
重构模块是本文新引入的模块,是模型改进的重点内容。本节在SimCLR的基础
上加入解码器对图像进行恢复,重构过程如图2.9所示。重构模块中的编码器即对比模 块中的编码器,所以也是ResnetlS,为了能对通过ResnetlS的图像编码进行解码操作, 本文一步步构建了完整的解码器网络与编码器相匹配,使解码器尽可能的对编码后的
图2.9重构模型
Figure 2.9 Reconstruction model
字型结构,左半边对样本进行编码,也就是卷积-激活-池化操作,每次池化通道数翻倍。 右边是对样本进行解码,也就是卷积-激活-上采样(反卷积)操作,每次上采样通道数减 半,最后将特征数变为2维。U-Net网络多用于医学影像,所以用在医学场景中会有较 好的效果。
该模型会对图像的每个视图进行重构。具体来说,图像X的两个视图益和為•经过 编码器f(・)生成图像表征,然后表征输入解码器d(・)将其恢复为图像维度,得到 d(Xi )和d(Xj)。然后对重构的视图)和d(Xj)与原图益和Xj进行均方误差函数 计算损失训练模型(在这里使用的原图是经过数据增强的视图,因为根据研究发现,使 用经过增强的视图比原始输入的图更有效)。损失函数如公式2.8所示。
» = MSE(d(XQ,益) (2.8)
MSE =扌器](益-d(XQ)2 (2.9)
这里列出了重构损失函数和均方误差(MSE)函数。
总的损失函数就是对比损失Lc和重构损失Lr相加,如公式2.10所不。
L =入L>c + (1 —久)厶厂 (2.10)
其中,本节设定权重久= 0.5。
图2.10展示了对比重构自监督模型(CRSM)的整体框架。图中展示了两部分框架是
Figure 2.10 Compare and reconstruct the overall framework
2.3实验与分析
本节介绍了相关数据集和实验设计,然后将本文所提CRSM模型与其它一些对比 自监督方法进行了比较,最后对两个提出的方法分别在SimCLR ±做了消融实验,证 明了模型的有效性。
2.3.1数据集介绍
(1)Covid-19 数据集
Covid-19数据集来自卡塔尔大学和孟加拉国达卡大学的研究团队,以及来自巴基 斯塔和马来西亚的合作者与医生合作,建立了一个Covid-19阳性病例的胸部X射线图 像数据库,以及正常和病毒性肺炎图像。数据集包含1200张Covid-19阳性图像,1341 张正常图像和1345张病毒性肺炎,是一个三分类数据集。
(2)Chest_xray 数据集
Chset_xray2017数据集包含5856张胸腔X射线透视图,这里搜集的数据集缺失了 一部分,共5216张图像。诊断结果(即分类标签)分为正常和肺炎,其中肺炎又可以细 分为细菌性肺炎和病毒性肺炎。实验中本文将两类肺炎看成是一类。胸腔X射线图像 选自广州市妇幼保健中心的1至5岁儿科患者的回顾性研究,是一个二分类数据集。
(3) IDC数据集
浸润性导管癌(IDC)市所有乳腺癌中最常见的亚型。为了给整个装载样本分配侵袭 性等级,病理学家通常关注包含IDC的区域。原始数据集是由162张以40倍扫描的乳 腺癌(BCa)标本的整个安装玻片组成。从中提取了 277524个大小为50*50的补丁 (198738个IDC阴性样本和78786个IDC阳性样本)。根据补丁的名称,0表示非IDC 且1表示IDC,是一个二分类数据集。
2. 3. 2实验设计
这一小节介绍了自监督预训练实验和下游分类任务实验的相关协议
(1)预训练协议
在所提的对比自监督模型中,使用ResNet-18作为模型的基础编码器。与SimCLR 基线网络所使用的一样,本文也使用MLP投影头将编码器的输出映射到128维,用于 图像对比。然后将每个数据集的所有图像在无标签的情况下用于对比自监督预训练, 并继续使用SimCLR中原有的数据增强再加上引入的改进随机擦除。对于图像重构, 本章将U-Net网络中编码器为ResNet-18时所对应的右半部分用作编码器,让通过解码 器恢复的图像与原图像进行重构损失计算。在预训练时,将Covid-19和Chest_xray数 据集中每张图像大小统一裁剪为256*256, IDC进行随即裁剪但图像大小不变。使用 Adam作为优化器,初始学习率为3e"3,并采用余弦退火策略降低学习速率。
(2)微调协议
本文在微调过程中使用线性分类器,然后用预训练模型得到的网络参数初始化下 游任务模型,遵循He%】等人对线性分类器的设置。定义使用Adam优化器训练50个 epoch,批量大小为256o下游任务的学习率继续使用30.0,这是通过网格搜索选择的 比较优的学习率。数据增强只使用了随机裁剪和随机翻转。微调阶段,为了方便起见, 本文将Covid-19和Chest_xray数据集图像大小调整为224*224, IDC图像调整为64*64。
实验在Linux服务器上使用Pytorch框架来实现所提的模型。此Linux服务器使用 Intel(R) Xeon(R) Gold 6226R CPU @2.90GHz, 376GB RAM,和 NVIDIA A40 GPU(48 GB caches)。
2. 3. 3比较实验
为了验证所提对比自监督模型的有效性,在本节实验中将完整的自监督模型框架 用于自监督预训练,然后用所得参数初始化下游分类任务模型,并与目前的一些自监 督方法进行了比较。最后对实验结果进行说明。
(1)设置
为了公平起见,在自监督预训练阶段,本文的方法和其它比较方法都使用 ResNetlS作为主学习器,在200个epoch内对完全相同的数据集进行训练,批次大小 为256。对于那些比较方法,其余参数都遵循原文的设置,通过预训练获取用于初始化 下游任务的网络参数。而在下游任务,所有方法都使用MoCo[28]中使用的线性分类器, 并遵循线性分类器所使用的参数。针对不同的方法,会对线性分类器进行微调以适应 该方法的训练参数。
(2)方法比较
为了评估所提方法在目标数据集上进行分类任务的有效性,本节将所提的方法 (CRSM,表中表示为Ou⑸与其它现有一些方法进行了比较,包括不使用自监督预训练 参数进行初始化直接训练线性分类器进行任务分类方法No-Pwtmined(NP)和一些现有 方法 CPC⑷]、MoCo[28]> 基线 SimCLR〔29]、BYOL[32]> PCRL[26]和 MPCS[⑹。实验证明 该方法是具有竞争力的。实验结果如表2.1、表2.2和表2.3所示。
表2.1:在Covid-19数据集上与其他方法性能比较
Table 2.1: Performance comparison with other methods on Covid-19 dataset
Method Accl AUC
No self-supervised pre-training NP 0.8376 0.9739
Classical selfsupervised method CPC SimCLR MoCo BYOL PCRL MPCS 0.9133
0.9154
0.9324
0.9401
0.9080
0.9311 0.9886
0.9923
0.9922
0.9914
0.9847
0.9918
Our self-supervised method Ours 0.9501 0.9957
表2.2:在Chest_xray数据集上与其他方法性能比较
Table 2.2: Performance comparison with other methods on Chest xray dataset
Method Accl AUC
No self-supervised pre-training NP 0.8243 0.8252
Classical selfsupervised method CPC SimCLR MoCo BYOL PCRL MPCS 0.9124
0.9112
0.9074
0.9231
0.8992
0.9346 0.9186
0.9362
0.9229
0.8962
0.9049
0.9287
Our selfsupervised method Ours 0.9509 0.9474
表2.3:在IDC数据集上与其他方法性能比较
Table 2.3: Performance comparison with other methods on IDCdataset
Method Accl AUC
No self-supervised pre-training NP 0.7008 0.7157
Classical selfsupervised method CPC SimCLR MoCo BYOL PCRL MPCS 0.7379
0.7391
0.7762
0.7643
0.7761
0.7816 0.7461
0.7538
0.7457
0.7341
0.7615
0.7694
Our selfsupervised method Ours 0.7893 0.7856
从上面三个表中可以看出,与不进行自监督预训练的方法NP相比,其它自监督预 训练方法使用参数初始化下游任务模型可以大幅提高任务的分类性能,这表明在同样 的条件下,对医学影像进行自监督预训练是十分有效的。从三个表格中的数据来看, 比较的几种方法在三种数据集的分类性能上各有优劣。有的方法在Covid-19中表现较 好,而有的在IDC中性能更高。也就是说,不同的方法在不同的数据集上会表现出性 能的差异,这属于正常现象。从表中也能看出,本文所提的方法在三种数据集上都拥 有超越其它对比自监督方法的性能,CRSM对比基线网络SimCLR,精度提升都在4% 左右。而在两种指标Accl和AUC上,本文方法预表中其他对比方法相比更具竞争力。 因为CRSM经过了更多的训练,更复杂的图像处理工作,更加适应医学影像,所以有 更高的精度。还可以看出,包括本文方法在内的这些对比自监督方法,在Covid-19和 Chest_xray这种胸片数据集上的分类精度要高于IDC数据集。因为对于网络模型,不 同的医学数据集图像会导致模型学习图像表征的难易程度差别很大,最后的精度就会 有所差异。
2. 3. 4消融实验
在这一小节,共进行了两种消融实验。首先需要验证改进随机擦除的有效性,将 其与原始随机擦除同时用于模型进行比较。然后是模型的消融实验,会分别将模块加 入到模型中,与基线网络SimCLR进行比较。
(1)数据增强
本节将原始随机擦除方法和多方位随机擦除方法都用于基线网络SimCLR上进行预 训练,然后在下游任务的每个数据集中评估了它们的性能。根据上文对多方位随机擦 除数据增强的描述,原始擦除中设定2 = 0.02、s〃 = 0.4,而在多方位随机擦除中设定 2 = 0.005、s^ = 0.01,此为经验值。并且将擦除的区域从一个增加为四个,分布在图 像各处,将改进后的方法标记为New。为了公平,厲和勺取原值,设定为D = 0.3、 r2 = 10/3o本节设置0讥(0.5)来表示原始的随机擦除并且擦除方法对图像使用的概率 为0.5,这是原文使用的概率。设置NewW表示改进的多方位随机擦除并且对图像使 用的概率为1,并且为了更公平的比较,也设置了Ori(l),即将原始随机擦除的概率 也提高到1与前两种情况进行比较。本文使用top-1精度(4ccl)和曲线下面积Q41/C) 两种指标测量模型的分类表现,这也是分类任务中最常用的两种指标,在模型的消融 实验中也使用此指标。数据增强方法在各个数据集上的评估结果展示在表2.4、表2.5 和表2.6中。
表2.4:在Covid-19数据集上评估改进的随机擦除方法
Table 2.4: Evaluating improved random erasure methods on Covid-19 dataset
Accl AUC
0 讥(0.5) 0.9155 0.9939
Ori(l) 0.9117 0.9937
Nqw(1) 0.9307 0.9948
表2.5:在Chest_xray数据集上评估改进的随机擦除方法
Table 2.5: Evaluating improved random erasure methods on Chest xray dataset
Accl AUC
0 讥(0.5) 0.9162 0.9309
0讥⑴ 0.9149 0.9218
Nqw(1) 0.9244 0.9428
表2.6:在IDC数据集上评估改进的随机擦除方法
Table 2.6: Evaluating improved random erasure methods on IDC dataset
Accl AUC
0 讥(0.5) 0.7359 0.7631
Ori(l) 0.7373 0.7608
New(l) 0.7490 0.7678
从表2.4和表2.5可以看出将原始的随机擦除概率提高到1后,分类精度反而降低 了,没有概率为0.5的时候好。说明对于原始擦除方法,并不是对所有图像都使用擦除 会得到更好的效果。而改进随机擦除因为针对医学图像的特点进行优化,对每张图像 都使用擦除后精度可以有不小的提升。对于表2.6,可能是图像较小的缘故,原始擦除 概率提升为1后精度有一点点的增长,但改进的方法有更大的精度提升,总体来说, 多方位随机擦除在性能上高于原始的随机擦除,更加适用于医学影像,说明该方法的 引进是有效的。
(2)模型优化
在这一节分析了多方位随机擦除算法加入模型后是否能比基线网络更好。引入的 图像重构模块是否能让网络模型学习更多的图像特征。在基线SimCLR中使用ResNet- 18作为主学习网络,然后分别加入多方位随机擦除(RE)和图像重构模块(IRM),在三个 数据集上对不同的模块组合,包括基线和随机擦触Baseline+RE).基线和图像重构 (Baseline+IRM)>基线加随机擦除和图像重构(Baseline+RE+IRM)进行实验验证各个模 块的有效性。实验结果如表2.7所示。
表2.7:在三个数据集上基线网络和各个模块组合的性能评估
Table 2.7: Baseline network and performance assessment of each module combination across three datasets
模块 Accl AUC
Baseline 0.9154 0.9923
Covid-19 Baseline+RE 0.9307 0.9948
Baseline+IRM 0.9454 0.9950
Baseline+RE+IRM 0.9501 0.9957
Baseline 0.9112 0.9362
Chest_xray Baseline+RE 0.9244 0.9428
Baseline+IRM 0.9408 0.9459
Baseline+RE+IRM 0.9509 0.9474
Baseline 0.7391 0.7538
IDC Baseline+RE 0.7490 0.7678
Baseline+IRM 0.7811 0.7702
Baseline+RE+IRM 0.7893 0.7856
如表2.7所示,通过消融实验可以清晰展示出每个模块的有效性。结果表明,不论 是改进随机擦除还是图像重构模块,都可以促使网络学习更多图像信息以提高下游任 务的分类精度。对于Chest_xray数据集,与基线网络相比,加入多方位随机擦除后在 Accl和AUC两个指标上分别提高了 1.32%和0.66%,加入图像重构在两个指标上分别 提高了 2.96%和0.97%,两个模块结合后指标分别提高了 3.97%和1.12%。对于Covid- 19数据集,与基线网络相比,加入多方位随机擦除在Accl和AUC两个指标上分别提 高了 1.53%和0.25%,加入图像重构在两个指标上分别提高了 3%和0.27%,两个模块 结合后指标分别提高了 3.47%和0.34%o对于IDC数据集,与基线网络相比,加入多 方位随机擦除在Accl和AUC两个指标上分别提高了 0.99%和1.4%,加入图像重构在 两个指标上分别提高了 4.2%和1.64%,两个模块结合后指标分别提高了 5.02%和 3.18%o
在实际训练中,将预训练模型(ResNet-18)作为特征提取器,将对比学习和图像重 构作为自监督代理任务学习图像表征。从表2.7可以看出,在对比模型中加入多方位随 机擦除方法对分类精度会有一定程度的提升,而图像重构模块的引入对主学习器的学 习能力则有更大幅度的加强。这是因为随机擦除作为一种数据增强方法,是对对比学 习这种自监督代理任务的优化,好的数据增强可以辅助对比自监督方法更好的学习图 像特征。而图像重构是作为一种新的自监督代理任务加入到模型中和对比方法结合在 一起帮助主学习器进行学习。所以总的来说,改进随机擦除和引入的图像重构对网络 模型的学习都是有益的。两者的结合可以更大程度的提升下游分类任务的精度,达到 了本文预期的结果。
2.4本章小结
针对对比自监督方法直接用于医学影像分类精度不高问题,本章提出了多方位随机 擦除和对比重构自监督模型,多方位随机擦除是对原始擦除的改进,原始擦除是应用 于自然图像的,本文对原始擦除的擦除区域和擦除数量进行了改进,从而使其更适用 于医学影像,该方法是对对比学习的一种优化,引进新的数据增强辅助对比学习。然 后提出了重构模块作为一种新的代理任务与对比模块结合组成对比重构自监督模型, 两者可以结合对图像进行训练,进行对比学习的同时对图像进行重构,相辅相成,可 以更充分的学习到更多的医学影像信息,从而提高下游分类任务的精度。
第三章 多步自监督预训练策略用于肺部疾病分类
本章先是分析了所提对比重构自监督模型(CRSM)的不足之处,在此基础上提出了 多步自监督预训练策略,介绍了自监督的相关知识并对策略进行了说明。最后实验验 证了策略的有效性。
3.1问题分析
上一章详细介绍了所提的对比重构自监督模型(CRSM),该模型相较于基线网络在 三种数据集上的分类性能都有很大提升,也要优于其它一些自监督方法。通过研究可 以知道合适的数据增强方法和能够相互学习的自监督代理任务都可以帮助模型学习图 像信息,使CRSM非常具有竞争力。然而,经过分析我们发现,训练出来的模型还是 具有一定的局限性。比如在预训练阶段,模型训练使用的数据集是Covid-19,在进行 下游分类任务训练时,所用的数据集也是Covid-19o这可能会导致模型具有针对性而 缺乏泛化性,只是在Covid-19这一种胸片数据集中性能良好,而本文希望换一种胸部 疾病数据集后,CRSM仍然可以有良好的表现,并且想更大程度提升CRSM在目标数 据集上的分类准确性。因此,为了进一步提升模型在肺部疾病数据集上的准确性并提 高模型泛化性,本文提出多步自监督预训练策略来解决问题。
在目前关于医学与自监督方法的一些研究中,大部分都是选择一种合适的代理任 务利用模型来训练医学影像,这些代理任务有的是从现有的一些代理方法中拿来直接 用,有的是根据数据集的特点构造新的代理任务。而在训练流程中,也是使用代理任 务先对目标数据集进行预训练,然后用所得模型参数初始化下游任务模型对目标数据 集进行微调实验然后用于具体任务。少数研究为了更好的初始化参数,会选择在正常 流程之前使用模型训练Imagenet数据集来代替随机初始化参数。而在本文中,也是为 了得到更好的模型参数,选择使用CheXpert大型胸部疾病数据集来对模型进行第一次 预训练,在一开始就使用医学影像进行参数初始化,用得到的参数训练目标医学数据 及进行第二次预训练,可以获得比第一次更好的参数(经过了两轮),然后用于目标数据 集的下游分类任务,这个策略通过多轮预训练可以学习到大量的医学影像信息。这也 是区别于其它很多研究的地方。
该策略对实验方式进行了改变,不同于一般的对目标数据集预训练后用于对目标 数据集进行下游任务,策略中先是使用大型胸部疾病数据集(大部分为胸部疾病影像)对 CRSM进行预训练,然后使用训练所得参数对肺部疾病目标数据集再次进行预训练, 经过两次预训练获得的模型参数再用于目标数据集下游分类任务,可以进一步提升精 度并提高模型泛化性。为了验证模型的泛化性,本文做了新的实验,重新使用大型胸 部数据集对模型进行预训练,然后直接用于目标数据集的下游任务,验证了模型的泛 化性。
3.2多步自监督预训练策略
因为本节用到了很多自监督的研究,所以选择在本节对自监督的相关知识进行介 绍,包括经典的自监督方法和近几年比较火热的对比自监督方法。然后详细介绍了多 步自监督预训练策略。
3.2.1自监督相关知识
有监督学习是在模型训练时,使用有标签的样本进行训练,每个样本都有独属于 自己的标签,经过学习模型可以将图像与其标签进行匹配,这种带有标签的样本使模 型训练十分的快速便捷。但标签的获取一直都是比较大的问题,为了能训练无标签样 本,人们提出了无监督和自监督学习。
无监督学习的特点是不需要样本标签,根据样本之间的联系或样本自身的信息进 行训练。自监督也可以算做无监督学习的一种,因为它也不需要来自外部的样本标签, 但跟无监督也有所不同。自监督学习会利用图像信息自己生成伪标签来辅助模型进行 学习,比如从图像的一部分来预测另一部分,那么这一部分就是另一部分的标签.
本文研究的主要是自监督学习的内容,所以对几类常见的自监督方法进行了介绍。
(1)预测式自监督学习
1)相对位置预测
相对位置预测是Doresch在2015年提出的一种自监督方法,受到了自然语言处理 的启发[他。相对位置预测方法的原理是,将图像分成几块。如果想要辨别某一块补丁 的正确位置,就需要学习整个图像的详细信息,熟悉图像的整个上下文。如图3.1所示, 给定中心的补丁,预测其它八个补丁的位置信息。
图3.1相对位置预测⑵
Figure 3.1 Relative position prediction
2)拼图
拼图作为一种自监督方法在2016年被提出,它有点类似于相对位置预测的改进版, 也是分成几个补丁。其就像是平时玩的拼图游戏一样,将所有补丁全部打乱,通过学 习将打乱的补丁重新拼成原始图片,没有中心补丁作为参照物。对于模型来说,这是 一个比相对位置预测更难的任务,但是也会让模型学习到更多的信息,流程如图3.2所
Zj\ O
3)旋转预测
旋转预测方法首次提出在2018年,这是很常用的一种自监督方法来学习图像特征。
该方法使用图像的几何变换来生成一个简单的分类问题供模型判断,如图3.3所示。
180° rotation
图3.3旋转预测⑶
Figure 3.3 Rotation prediction
这种简单的几何变换对图像旋转90°或90。的倍数来表示,这样就可以把图像分0°、 90°、180°和270°四类,而这些度数就对应每一类的标签。模型预测图像旋转的度 数来判断图像属于哪一类。通过对同一张图像不同角度的学习分析,就可以获取到输 入样本具有代表性的语义特征。
(2)生成式自监督学习
1)去噪自编码
自编码器网是一种特殊的网络模型,主要功能就是对输入样本进行重建[4刀,传统
的自编码器由编码器和解码器两个网络组成。编码器将输入样本压缩提取成特征表示, 而解码器负责对图像特征进行重建[伺,还原成原始样本。在训练完成后,解码器的工 作就结束并被丢弃,而编码器作为特征学器被保留下来用于下一步使用。去噪自编码 器⑷]是对传统自编码器的改进。在自编码器的基础上,向原始图像添加像素级的噪声 然后再进行编码然后重建。不但可以降低过拟合的风险也可以学习更多的特征表示, 去噪自编码器工作流程如图3.4所示。
图3.4去噪自编码
Figure 3.4 Denoising self-coding
2)图像修复
图像修复又可以称为上下文编码器,是在2016年提出的一种生成式自监督代理任 务。它的原理和去噪自编码类似,但它是对输入图像进行掩码处理代替噪声处理,掩 盖掉图像部分区域,区域可以是中心块也可以是随机块,解码器将掩码区域修复为原 始图像内容来重建图像。在训练时使用了重构损失,可以保持掩码区域和原始图像的 整体结构,使网络学习到良好的语义特征,如图3.5所示。
图3.5图像修复⑶
Figure 3.5 Image restoration
3)图像着色
图像着色是由Zhang等人在2016年提出的自监督方法,将自动为图像着色作为一 种自监督代理任务。在该任务中没有使用传统的RGB三通道颜色空间,而是用的Lab 颜色空间,因为Lab更接近人类对颜色的感知。L表示灰度,而ab代表了颜色通道。
因此,输入的灰色样本含有L通道,将相对应的ab通道作为监督信号来训练模型,女口 图3.6所示。然而,图像着色可能是多模态的,也就是说一个物体可能会有多种不同的 颜色,比如小狗可能是黑色、白色或棕色。针对这个问题,对网络进行设计去预测像 素可能的颜色概率分布,并利用加权交叉爛函数补偿一些稀有函数。然后计算概率分 布的退火平均值,产生最终的物体颜色。
图3.6图像着色⑶
Figure 3.6 Image coloring
然后计算概率分布
(3)对比式自监督学习
对比自监督方法是一种不同于其他自监督方法的算法,它首次用到了正负样本, 增大正样本之间的相似性同时扩大与负样本的差异性。对比方法在被提出来时就展现 出了强大的性能,,所以针对对比自监督方法的研究越来越多。
1)MoCo
动量对比(MoCo)是He等人2020年提出的对比自监督方法,融合了动态字典查找
和队列的思想。如图3.7所示。MoCo包含两个分支,查询编码器和动量编码器。查询 编码器生成查询图像的特征映射,而动量编码器作为样本字典形成特征映射编码。字
典作为一个含有很多特征编码的队列进行维护,当前批次样本的编码特征进入队列,
上。A?2 .八
queue
Figure 3.7 Self-supervised learning of momentum contrast
而最先进入的批次样本则退出队列。作者将字典的大小与批次处理大小解耦,让字典 可以包含不止一个批次。此外,由于字典键来自于前面的几个批次数据,为了保持一 致性,提出了慢进键编码器,实现基于动量移动平均值的查询编码器。查询编码器根 据输入样本,在字典中查询输入样本对应的正样本[期,查询的范围是整个字典中包含 的样本,所以字典容量越大,模型训练就更好。
2)SimCLR
SimCLR 的全称是 Simple framework for contrastive learning of visual representations, 是视觉表征对比的简单框架。SimCLR包含两个重要的思想,一是对同一样本生成相关 正例视图的数据增强技术,研究证明,非监督对比学习得益于更强的数据增强组合。 二是包含大量负样本的批处理,与MoCo不同,它不需要专门的字典来存储数据,正 负样本的数量就等于每个批次样本的数量,批次越大,训练中负样本的数量就越多。 对比自监督学习受益于更大的批次和更长的训练时间。在SimCLR中,通过数据增强 一个样本生成两种视图传递给编码器,然后经过传递生成一对特征向量。模型就是要 最大化这对特征向量的一致性,最小化同批中与其它负样本图像之间一致性。模型如 图3.8所示。
Maximize agreement
5(')|
图3.8 SimCLR示意图⑵]
Figure 3.8 SimCLR diagram
3)BYOL
BYOL全称是Bootstrap Your Own Latent,是2020年提出的一种内隐对比学习方法, 它最大的特点就是消除了对比学习对负样本的依赖,让对比学习可以在没有负样本的 情况下进行。实现了在不用负例的情况下获得比最先进的对比方法更高的性能。BYOL 包含在线网络和目标网络,相互作用相互学习。在线网络是可训练网络,而目标网络 是随机初始化的不可训练网络。输入样本生成两个视图,一个视图经过在线网络编码 并进行了预测,而另一个视图经过目标网络进行编码,然后与经过预测的数据都输入 均方误差函数进行优化,这里不再使用对比损失。BYOL在增强视图上训练在线网络 学习图像特征,以预测由目标网络产生的同意图像另一视图的特征表示,相互进行学 习。模型如图3.9所示。
3.2.2多步自监督预训练策略
(1)策略介绍
基于前面的问题分析,本文提出了一种多步自监督预训练策略作为解决方法,可 以提升CRSM模型泛化性并进一步提升目标数据集的分类精度。本章对实验方式进行 了改变,具体来说,就是使用CheXpert[45]数据集对模型进行第一步预训练。CheXpert 是一个超大型胸部疾病数据集(多数疾病为肺部疾病),包含二十多万个样本,之前使用 的Covid-19只有两种病例,新冠肺炎和病毒性肺炎,三千多个样本。而CheXpert中包 含有十四种胸部疾病(在数据集介绍部分会对其进行详细介绍)。所以使用CheXpert进 行预训练,可以大大加强模型的泛化能力,学习到庞大的胸部疾病影像信息,用于下 游任务时对于不同的胸部数据集都可以起到良好的效果。然后在该策略中,使用目标 数据集如Covid-19对模型进行了第二步预训练,第二步预训练前使用第一步预训练所 得模型参数对未经训练的模型初始化,确保第一步预训练可以对第二步产生影响。最 后将第二步预训练的网络参数用于Covid-19数据集的下游分类任务,这就是多步自监 督预训练策略的整体流程。
不同于一般自监督学习对目标数据集进行一次自监督预训练后,用得到的参数初 始化下游任务模型,对目标数据集进行各种下游任务则流程结束。该策略为了提升模 型的精度和泛化性,先增加了一次在大型胸部数据集上的自监督预训练,然后对目标 数据集再次预训练,最后用于目标数据集的下游分类任务。该策略可以进一步提高 CRSM对于Covid-19和Chest_xray数据集的分类精度。为了验证模型经过大数据集预 训练后的泛化性,本章重新进行了实验,在使用CheXpert数据集对模型进行预训练后, 用所得参数直接用于下游目标数据集如Covid-19的分类任务,不再对Covid-19数据集 进行预训练,以此验证经过大数据集预训练的模型可以直接用于其它胸部疾病数据集 的分类任务。
(2)策略详细流程
在具体的所提策略流程中,用于训练的模型是第二章所提模型CRSM,本章的目 的也是在前一章基础上引入策略来提升模型性能。编码器依旧选择Reset-18,基于时 间和复杂度的考虑,本文选择比较简单的网络模型作为编码器,对比模块和重构模块 的结合使模型要进行更多的图像信息学习,使用比较复杂的模型会大大增加训练的时 间,得到更多的参数,非常不友好,并且使用ResNet-18训练出的线性分类器依然拥有 很好的分类精度,经过分析使用该网络作为主学习器。为了公平起见,使用的数据增 强算法和超参数设置也和第二章一样。首先使用CheXpert数据集对CRSM进行训练, 为了确保模型可以收敛到比较好的效果,设置epoch为200,经过长时间的训练然后将 获得的模型参数进行保存,此时第一轮预训练结束。
在第二次预训练开始时,将之前保存的模型参数下载到新的ResNet-18网络中进行 参数初始化,此时,新的ResNet-18网络中每一层的参数都是从经过第一轮预训练的模 型中获取的,包含大量医学影像信息,因此即使目标数据集所含图像较少,在第二轮 目标数据集的预训练中也可以快速收敛,减少训练时间,因此在第二轮预训练中将 epoch设置为100o然后将第二轮预训练所得网络参数进行下载,将其迁移用于下游分 类任务的训练,此时下游任务是对目标数据集进行有标签训练,是一种有监督的微调 实验。因为使有标签的模型训练,为方便不再使用多种数据增强,只用了随机裁剪和 翻转对图像进行简单处理。模型参数下载到ResNet-18后,在这一阶段会将网络中的卷 积层进行冻结,也就是训练期间网络参数保持为第二轮预训练的网络参数,不再改变。 只保留一个网络线性层进行动态训练,可以改变参数,即为线性分类器。
第二轮预训练和最后的下游任务分类训练使用的目标数据集为同一数据集,只有 第一轮预训练所用数据集不同,这也是为了在一开始让模型学习大量知识,更好的应 用于之后目标数据集的分类任务。还有一点需要注意,这里本文为什么不选择将 CheXpert数据集和目标数据集放在一起训练2,而是要分为两个部分。这是因为 CheXpert包含二十多万张医学影像,内容特别多,而目标数据集只有三四千张,将目 标数据集和CheXpert数据集融合后目标数据集所占比例只有百分之二三,若是对模型 进行训练目标数据集几乎不会起到任何作用,模型也学不到目标数据集的相关信息, 所以必须对目标数据集单独训练才能达到所要的效果。
(3)流程展示
本章所提策略还可以进行更多的扩充,进行三步、四步预训练,但在本文只用 CheXpert数据集进行了一次扩充,共两步预训练,这也是后面可以进一步研究的内容。 多步自监督策略整体流程如图3.10所示。为了验证模型泛化性的实验过程如图3.11所 zj\ O
CheXpert [目iw集L 」目擁集]
(224k) covid-19/chest xray ■ M covid-19/chest xray
WiJIll «]iii r 下游乘
图3.10多步自监督预训练用于下游任务分类
Figure 3.10 Multi-step self-supervised pre-training is used for downstream task classification
图3.11验证泛化性模型训练流程
Fig 3.11 Verify the generalized model training process
图3.11中的流程中去掉了对目标数据集的无标签预训练,此操作是为了验证模型 的泛化性,因为数据集有限,所以为了验证泛化性选择将在CheXpert数据集上训练过 的网络模型直接用于目标数据集下游分类任务,这是为了表现使用CheXpert训练后, 模型即使不对目标数据集进行预训练,也可以对目标数据集有良好的分类精度,换成 其它数据集也是一样的。也就是说,模型在经过大型数据集训练后,直接用于目标数 据集的下游任务有良好的效果,那么在其它胸部疾病数据集上也能有良好的性能(即便 不对其它胸部数据集进行预训练)。这就是模型的泛化性。
根据Zhang等人口8】的研究表明,在大量的数据任务上,im昭enet初始化模型比随 机初始化模型更具有竞争力,预训练会加速收敛。而Raghu等人屮]进一步研究了 ImageNet预训练的有效性,ImageNet是包含大量自然图像的大型数据集,说明使用大 量样本对模型进行预训练是有益的。本章所提策略受到MoCo-CXR[34]的启发,原论文 中作者首先使用ImageNet对模型进行初始化好于模型的随机初始化,然后再使用医学 图像数据集进行预训练,最后用于下游任务。本文不使用ImageNet数据集,直接使用 大型医学图像数据集加速模型收敛。通过实验证明,多步自监督预训练方法不仅可以 进一步提高模型在下游任务数据集上的分类精度,也可以提升模型的泛化性。
3.3实验结果与分析
3.3.1数据集介绍
CheXpert: CheXpert是2019年吴恩达团队公开的一个大型X线胸片数据集,它包 含了 65240位病人的224316张X线胸片(X线胸片分为正面拍摄、背面拍摄、侧面拍 摄。正面和背面拍摄的X线胸片居多),数据集中的信息是由标签器Labeler从放射学 报告中提取14个观测值中得到。观测值分为正样本:l(positive)、负样本:0(negative)> 还有不确定样本:-l(unceTtain),并对如何处理uncertain标签的样本的方法进行了讨论、 性能衡量。这14种观测值分别包含健康(No Finding) >纵隔扩大(Enlarged Cardiomediastinum)> 心脏肥大(Cardiomegaly)> 肺部浑浊(Lung Opacity)> 肺部病变 (Lung Lesion)、水肿(Edema)、变实(Consolidation)、肺炎(Pneumonia)、肺不张 (Atelectasis)> 气胸(Pneumothorax)> 胸腔积液(Pleural Effusion)> 胸膜其它(Pleural Other)> 骨折(Fracture)>辅助设备(Support Devices) □ 20多万张X线胸片的标签一是通过 Labeler自动提取相应的放射性报告中的类别标签(训练集)。二是通过挑选专业医师根 据X线胸片图像来打标签(验证集和测试集)。
验证集共234张图片,由3位专业医师根据X线胸片信息手动进行标注。测试集 由500个胸部X线影像构成,并且标签由5位专家进行标注(其中3人是对验证集进行 标注的专家,这点很严谨,保证了验证集和测试集标签不会因人为因素出现太多偏差, 因为参数是按照验证集来调整评估)。
本节对CheXpert进行了详细的介绍,包括训练集、验证集和测试集。但实际上本 文工作并不进行区分,因为是自监督预训练,所以将训练集、验证集和测试集中的数 据整合到一起进行训练,并不用作下游分类任务数据集。
所用到的Covid-19和Chest_xray数据集在第二章已经进行详细介绍,实验所用到 的设备和协议也在第二章进行了阐述,在这里不再赘述。
3. 3. 2实验评估
在这一节进行了多步自监督预训练策略来训练超大模型用于下游目标数据集分类 任务。具体来说,本节先使用CheXpert数据集对所提网络模型进行了无标签预训练, 让网络成为学习到各种胸部病理图像特征的超大模型。然后用预训练出的模型参数初 始化本文的模型然后对目标数据集(Covid-19/Chest_xray)再次进行无标签预训练,也就 是第二次预训练。在这个过程中,第一次预训练是想让模型学习大量的胸部疾病图像 特征,在用于其它胸部疾病数据集时可以起到一定的作用。第二次预训练就跟普通的 自监督目标一样,就是为了学习目标数据集的图像信息,可以为下游任务模型带标签 训练目标数据集时起到最直接的辅助作用。
为了验证多步自监督预训练策略可以进一步提升模型精度,本章将第二章的对比 实验结果再次用到了这里,但因为主要是针对胸部疾病,所以这一章不对IDC数据集 进行训练比较。并且第二章模型(没有使用多步自监督预训练策略)也参与了比较来证 明本章使用策略后的模型精度更高。为了进行区分,本章模型因为是用大数据集并经 过两次预训练得到的超大模型,所以表示为OuTs(big),第二章的模型表示为Outs(第二 章)。实验结果如表3.1、表3. 2所示。
表3.1在Covid-19数据集上与其他方法性能比较
Table 3.1 Performance comparison with other methods on Covid-19 dataset
Method Accl AUC
No self-supervised pre-training NP 0.8376 0.9739
CPC 0.9133 0.9886
SimCLR 0.9154 0.9923
Classical self MoCo 0.9324 0.9922
supervised method BYOL 0.9401 0.9914
PCRL 0.9080 0.9847
MPCS 0.9311 0.9918
Our self Ours(第二章) 0.9501 0.9957
supervised method Ours(big) 0.9612 0.9963
表3.2在Chest_xray数据集上与其他方法性能比较
Table 3.2 Performance comparison with other methods on Chest xray dataset
Method Accl AUC
No self-supervised pre-training NP 0.8243 0.8252
CPC 0.9124 0.9186
SimCLR 0.9112 0.9362
Classical self MoCo 0.9074 0.9229
supervised method BYOL 0.9231 0.8962
PCRL 0.8992 0.9049
MPCS 0.9346 0.9287
Our self Ours(第二章) 0.9509 0.9474
supervised method Ours(big) 0.9604 0.9586
从实验结果可以看出,经过在CheXpert数据集和目标数据集上进行多步预训练之 后,可以进一步提升模型在目标数据集上的分类精度,说明多步预训练是有效的。
为了验证模型的泛化性,本章使用CheXpert数据集对模型进行了预训练,然后直 接用于下游任务目标数据集的分类,来验证模型从CheXpert数据集学习到的图像特征 是否能用于其它数据集,这对于证明模型在不同数据集上的泛化性有很大的作用。在 此实验中,继续将第二章的其它方法的比较实验结果用于本次实验,但不同的是,本 文方法使用CheXpert数据集预训练后用于下游任务目标数据集,而其它方法是使用目 标数据集预训练后,再用于下游任务目标数据集,两阶段目标数据集是一样的,所以 本次模型实验结果是处于劣势情况下(为了验证泛化性),可能没有其它方法好。此实 验中为验证泛化性的模型用Ours(CheXpert)表示,并且只与其它方法进行比较,不与第 二章的Ours模型以及第三章前面的Ours(big)进行比较,因为意义不大。实验结果由 表3. 3、表3. 4所示。
表3.3验证Covid-19数据集上模型泛化性实验结果与其它方法比较
Table 3.3 To verify the results of model generalization experiments on Covid-19 data sets compared with
other methods
Method Accl AUC
No self-supervised pre-training NP 0.8376 0.9739
Classical selfsupervised method CPC SimCLR MoCo BYOL PCRL MPCS 0.9133
0.9154
0.9324
0.9401
0.9080
0.9311 0.9886
0.9923
0.9922
0.9914
0.9847
0.9918
Our selfsupervised method Ours(CheXpert) 0.8993 0.9909
表3.4验证Chest.xray数据集上模型泛化性实验结果与其它方法比较
Table 3.4 To verify the results of model generalization experiments on Chest_ray data sets compared with
other methods
Method Accl AUC
No self-supervised pre-training NP 0.8243 0.8252
Classical selfsupervised method CPC SimCLR MoCo BYOL PCRL MPCS 0.9124
0.9112
0.9074
0.9231
0.8992
0.9246 0.9186
0.9362
0.9229
0.8962
0.9049
0.9287
Our self-supervised method Ours(CheXpert) 0.9174 0.9170
从实验数据可以看出,本文模型在经过大数据集与训练后直接用于目标数据集的 分类,在精度上远远超过不经过预训练而用于目标数据集的分类,说明经过大幅度的 训练可以提升模型的泛化性,甚至精度比一些对目标数据集进行过预训练的自监督方 法还要高。这也说明了模型在以后可以用于更多的胸部疾病数据集的分类,即便不进 行自监督预训练也可以有较高的精度。
3.4本章小结
针对所提模型在医学数据集上泛化性能不足且想进一步提高模型在目标数据集上 精度的问题,本章提出了多步自监督预训练来训练一个超大模型用于肺部疾病分类。 为了进一步提高精度,先是使用大的胸部疾病数据集对模型进行预训练,然后使用目 标的肺部疾病数据集进行二次预训练,最后用于目标数据集的分类任务,可以提高更 多的精度。使用大型胸部疾病数据集对模型预训练后直接用于目标数据集的分类任务, 可以提高模型的泛化性,也可以对是否有泛化性济宁验证不对目标数据集进行预训练, 也可以对目标数据集有很高的分类精度,实验证明经过训练模型的泛化性达到了预期。
第四章基于自监督的医学影像智能分类系统
4.1需求分析
随着医疗的发展,专家根本没有足够的精力去诊断越来越多的医学影像。计算机 辅助诊断(CAD)可以缓解这个问题,CAD可以结合计算机对大量的医学影像资料进行 分析,帮助医生完成诊断病理的工作,还能减少误诊的概率,计算机诊断可以达到非 常高的目的。基于此,本章设计了医学影像智能分类系统,在后端使用第二章提出的 CRSM对医学影像进行分类,使用python语言对模型进行开发,然后用Docker技术将 模型部署到Linux系统中,前端框架使用PyQT语言进行优化。本系统是基于中国科学 院自动化研究所的“智能标注”项目,是在labelme人工标注软件的基础上进行开发的, 所以前端界面大部分使用的是labelme原有的界面,本文在界面上进行了部分优化。
首先,医学影像智能分类系统是对输入的医学影像通过模型进行预测,并在前端 展示预测结果,也就是图像的分类结果,获取标注图像,保存之后就得到了一个带标 签的医学图像。
其次,本章的系统具有运行效率高,操作简单的有点,用户使用十分方便,在对 图像进行标注时不需要先进行上传,直接在本地打开文件即可,缩减了使用的时间, 可以打开单个图像也可以打开图像文件。前端按钮都在左边,分类结果在右上角,界 面简洁十分清晰,对用户十分友好。
4.2系统框架
图4.1系统整体框架
Figure 4.1 Overall system framework
系统架构如图4.1所示,共包含三大模块,分别是界面展示、后端分类和数据保存。
界面展示是用来展示需要分类的图像以及一些必要的操作,有打开文件,可以打 开单张图片或者图片文件,打开多张图片可以自行选择需要进行分类的图片。打开文 件后就是一些点击操作,包括上一张、下一张这种常用功能,最关键的是智能分类的 按钮,点击此按钮就可以通过后端模型对图像进行分类,也可以说,这个按钮就是前 端和后端连接的接口。
后端分类模块先是将前端打开的要进行分类的图像通过网络传输功能输入到后端, 然后后端模型对图片进行预测之后将结果传回前端进行展示,并且用户可以对图像进 行操作,修改标签之类的。
数据保存模块将分类标注后的图像进行,保存原图像和标注信息。
4.3系统开发环境
软件环境:前端界面基于windows 10系统,使用python3.6编程语言在Pycharm中 进行开发,使用PyQT库实现界面和按钮功能。后端使用Pytorch> Numpy等库在 Linux系统中进行开发实现医学影像分类功能
硬件环境:前端windows 10系统:
处理器:Intel(R) Core(TM) i5-8500 CPU @ 3.00GHZ
机带 RAM: 16GB
后端Linux系统:
处理器:Intel(R) Xeon(R) Gold 6226R CPU @2.90GHz
RAM: 376GB RAM
GPU: NVIDIA A40 GPU(48 GB caches) o
4.4功能展示
本节对系统中的一些功能进行展示,包括前端界面和后端模块运行。
4. 4. 1前端界面展示
首先是前端界面展示,该系统是在命令彳丁输入命令打开界面。初始界面如图4.2所
Zj\ O
图4.2初始化界面
Figure 4.2 Initialization interface
可以看出,在刚打开时,只有左上角打开和打开目录两个按钮是亮起来的,可以打 开单个图片或通过目录打开多张图片。只有打开图片后才可以进行下一步操作。右上 角是标签显示区域,可以显示分类的类别和分类的结果。往下的文件列表可以显示所 有图像的路径和名称,非常方便简洁。
接下来是选择图像,通过打开目录按钮可以选择图像文件,打开后可以获取文件中 的所有图像,如图4.3所示。
图4.3打开文件
Figure 4.3 Open file
打开目录文件后,会自动显示目录中的第一张图片,此时选择“前一张”、“后一 张”和“智能分类”的按钮都会亮起,右下角会显示目录中所有图片的信息,可以点 击切换图片,如图4.4所示
Figure 4.4 Image opening interface
4. 4. 2网络传输
使用HTTP请求,服务器的网络地址和端口号会发送给前端,然后前端通过requests中 的post请求发送数据,后端得到数据后,通过response进行响应传回分割结果。前端 和后端传输的部分代码如图4.5和4.6所示。
def pedestrian(self): |
img_path = self4loadFile(selftfilename)[l]
#讓后端返回方輕标、施 file = openfirng path, 'rb1) # 二进制打开图片 files = {'file1: (self Jilenafne, file)} # 拼接参数 response 二 requests, post ("http ://172.18,11636 lysgi/odjredicf'j files^fil ⑸ # 鎚卩。st 请求到服务器揣 data = json.loads(response.text) # diet found, label = data['found'], data['label']
图4.5前端传输代码
Figure 4.5 Front-end network transmission code
@app. route( 'VicJjredict^j Riethods=[' POST' ]) # 图像分类-三通道
def get_ic3_piredict():
#矮收客户端上传的数据
upload_file = request .files[' file' ] # upload_file =(图片名 * 图片二进制数据〉
if upload_file:
img_arr = np.array(Image.open(upload_file)j dtype=np.uint8)
label = resnet50_predict.model_predict(img_arr)
response = {'data': int(label)} return response #返回至前端
abort(400) #若没有图片传递返回那00
图4.6后端传输代码
Figure 4.6 Back-end transmission code
4. 4. 3后端分割结果展示
这一小节是最后的结果展示,当前端界面中图片准备就绪,后端服务器确保正常运 行后,就可以进行智能分类操作。此时选择点击“智能分类-covid"按钮即可以对 Covid-19数据集中的图像进行分类,第二章介绍到的三个医学数据集在本系统中都会 进行分类展示,且每一个数据集的智能分类按钮都带有自己数据集的名字,其他数据 集的操作也是一样的,只不过后端的模型不同。比如用于Covid-19数据集分类的后端 模型使用Covid-19进行过训练,其它数据集的分类模型也是使用其它数据集进行训练, 以此有针对性的使用模型可以有较高的精度
如图4.7所示,展示的是Covid-19数据集的分类结果。
图4.7 covid-19数据分类结果
Figure 4.7covid-19 data classification results
点击分类按钮之后,右上角就会显示分类的类别和分类结果,可以看出图4.7中显 示的图片名称为“COVID(236).png”说明该图片的类别是COVID,而右上角显示分类
的类别为COVID,说明此时展示的模型分类结果是正确的。在文件列表进行点击就可 以选择想要的图片。
图4. 8和图4. 9分别显示了 Chest_xray数据集和IDC数据集的分类结果。
图4.8 chest_xray数据分类结果
Figure 4.8 chest_xray data classification results
Figure 4.9 IDC data classification results
图像传输中用到了网络传输,通过http协议进行请求,使用requests中的post请 求服务器端网络地址以及端口然后发送数据,通过响应报文将分类的结果传回并读取 为json文件,最后将json文件保存。
4. 4. 4数据保存模块
在对图像进行分类后,要对图像的标注信息进行保存,点击“保存”按钮,系统会 将分类信息通过json文件形式进行保存,带标注信息的json文件图像会保存到与原 图像文件夹同级目录下的“Temp”文件中。如图4. 10所示。
4. 5本章小结
本章使用第二章所构建的对比重构自监督模型作为后端的技术支撑,设计了自监 督医学影像智能分类系统。首先分析了用户需求,从实用性的角度来提出此系统,构 建并在文中展示了前端初始化界面、打开图像文件、图像展示和分类结果等前端功能, 还有使用训练好的模型对几种医学数据集进行智能分类的后端功能。并给出了前端与 后端进行数据传输的部分重要代码,通过两端互相信息传输,实现了前端将图片传入 后端,后端将分类结果传回前端进行展示的一系列流程。
本章系统从实现所需功能和用户使用两方面出发,做到了界面简洁、使用方便, 在易于操作的基础上使系统可以对目标图片进行快速分类,具有一定的实用性。目前 实现了一些该系统的最基本的一些功能,在以后可以继续对系统进行研究和优化,通 过在前端界面增加更多功能来提升界面的美观性。后端也可以继续进行开发实现不局 限于分类的更多功能。
第五章总结和展望
5.1论文总结
随着信息化的发展,数据量呈指数级增加,传统的有监督深度学习已经无法满足 人们的需求,因为大量的数据都是无标签的,传统方法无法处理无标签的数据。尤其 是在医学影像方面,据统计,将近90%的医疗数据来自于医学影像,是疾病筛查诊治 的主要信息来源,约80%的临床问题需要影像检查才能得到准确的诊断结果。但是医学 影像因其特殊性需要专业人士进行标注,但少量的医学专家根本无法标注大量的图像, 因此,就需要新的深度学习方法可以对无标签数据集进行训练。自监督学习就是一种 无需标签的数据训练方法,这种方法是通过挖掘图像自身的特点,生成图像本身的监 督信号而不依赖外界标签,通过训练获取丰富图像表征,相较于传统深度学习有更大 的优势。为了更好的预训练医学图像,本文提出了对比重构自监督模型,引入了重构 模块和改进的随机擦除数据增强。为了进一步提高模型精度和泛化性,结合多步自监 督预训练对庞大的胸部疾病数据集和下游数据集尽心训练得到超大模型。并且在最后 介绍了一个设计的基于深度自监督的医学影像智能分类系统,可以快速诊断医学图像 的病理,缓解医生的压力。
本文的研究工作如下:
(1)考虑到之前的一些研究中将对比自监督方法直接用于医学影像时,精度不太高 的问题,这可能是由于原本用于自然图像的对比自监督方法被直接用来进行医学影像 的学习和训练,因为医学影像的复杂性不能充分学习到足够的影像信息而导致的,基 于此。本文首先提出多方位随机擦除数据增强来优化SimCLR对比自监督模型,在原 始随机擦除方法的基础上缩小擦除区域面积的同时增加了数量,使擦除区域遍布各处, 避免过大的擦除区域遮挡医学影像病理。之后提出了融合编码器解码器的对比重构自 监督模型(CRSM),这是在SimCLR中引入了另一种自监督代理任务-图像重构,建立 解码器网络与编码器一起对图像进行重构操作,提高模型分类精度。实验表明CRSM具 有良好的性能,在目标数据集上有较高的分类精度。
(2)想进一步提升CRSM在肺部疾病数据集上的分类准确性且提高其泛化能力,本 文提出了一种多步自监督预训练策略。使用CheXpert胸部疾病数据集对CRSM进行第 一次预训练,然后用所得模型参数在目标数据集上对CRSM进行第二次预训练,最后将 第二次预训练得到的参数迁移到下游任务的线性分类器中对目标数据集进行分类。为 验证模型泛化性,本文在实验中使用CheXpert对模型预训练后直接将参数用于下游目 标数据集分类任务,不再对目标数据集进行预训练。实验证明经过CheXpert数据集预 训练后模型可以用于其它胸部疾病数据集分类并有较高的精度,该策略也可以进一步 提升CRSM在目标数据集的分类精度。
(3)为了体现上述所提模型CRSM的实用性,本文设计了基于自监督的医学影像 智能分类系统,将CRSM作为后端的技术支撑。在这一节中先是分析了系统使用需求, 然后介绍了前端展示模块和后端运行工作模块两部分。前端可以通过打开文件来输入 要分类的图像文件并进行展示,还有图像列表和分类结果显示区域。在分类时通过点 击智能分类按钮可快速获取分类结果。通过Http请求,前端将图像传入后端,经过分 类后端再将分类结果传输到前端,通过网络传输将前端与后端连接互相进行信息传输, 实现了对医学影像的智能分类。
5.2未来工作展望
将自监督方法用于医学影像进行图像识别是目前的研究热点,大部分的医学影像 都是没有标签的且标注十分困难。近些年自监督方法的进入加速了医学领域在深度学 习方面的发展,而对比自监督的出现促进了自监督的发展。本文对一些对比自监督方 法进行了分析,发现了可以改进的地方,并取得了一定的效果。但是经过思考发现本 文的研究还存在一些不足之处,可以在未来进行更深入的研究。所以本节结合了自监 督目前在医疗领域的发展,总结了一些后续可以继续研究的工作,这也是以后能进一 步研究的方向:
(1)因为医学数据集收集比较困难,实验中使用的数据集两个是针对肺部疾病,一 个是针对乳腺癌的。希望在未来的研究当中,可以收集到更多的医学图像数据集,不 管是数量还是种类,希望都能有一个提升。用更多的数据集训练适合更多医学图像的 自监督模型
(2)本文目前的研究都是针对公共数据集,都是可以在网上找到的。在后面的工作 中,可以与一些医疗机构合作,收集独特的医学图像,增加模型泛化能力,提升临床 诊断的能力
(3)本文所提CRSM所有的工作都是基于医学影像分类,但实际上分类任务比较简 单,可能并不能充分利用模型在训练过程中学习到的图像特征,因此在后续的研究中, 希望能将任务不止局限于图像分类,可以扩展到图像分割任务和图像检测任务中。更 丰富的任务才能更体现模型的性能,才可以使本文所提自监督模型发挥更大的作用。
(4)本文提出的多步自监督预训练只在原有基础上扩充了一步,但还可以在更大的 模型上进行更多的预训练,达到三步、四步或更多,该问题也在第三章提到过,可以 使用更多的数据集进行更多步的训练。
总的来说,本文解决了一些目前关于对比自监督和医学影像分类结合后存在的一 些问题,但还有更多的内容需要去研究和解决,在未来,会朝着这些上述所提的内容 去努力,解决更多的问题。
参考文献
[1]Liu X, Zhang F, Hou Z, et al. Self-supervised learning: Generative or contrastive[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(1): 857-876.
[2]Shurrab S, Duwairi R. Self-supervised learning methods and applications in medical imaging analysis: A survey [J]. PeerJ Computer Science, 2022, 8: el045.
[3]Ohri K, Kumar M. Review on self-supervised image recognition using deep neural networks [J]. Kno wledge-B ased Systems, 2021, 224: 107090.
[4]Jaiswal A, Babu A R, Zadeh M Z, et al. A survey on contrastive self-supervised learning [J]. Technologies, 2021, 9(1): 2.
[5]Doersch C, Gupta A, Efros A A. Unsupervised visual representation learning by context prediction[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1422-1430.
[6]Noroozi M, Favaro P. Unsupervised learning of visual representations by solving jigsaw puzzles[C]//Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part VI. Cham: Springer International Publishing, 2016: 69-84.
[7]Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: Feature learning by inpainting[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2536-2544.
[8]Zhang R, Isola P, Efros A A. Colorful image colorization[C]//Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part III 14. Springer International Publishing, 2016: 649-666.
[9]Gidaris S, Singh P, Komodakis N. Unsupervised representation learning by predicting image rotations [J]. arXiv preprint arXiv: 1803.07728, 2018.
[10]陈燕,耿国华.一种直接图像增强方法在医学影像分类中的应用[J].计算机应 用与软件,2007, 24(6) :3.
[11]Ravikumar S. Image segmentation and classification of white blood cells with the extreme learning machine and the fast relevance vector machine [J]. Artificial cells, nanomedicine, and biotechnology, 2016, 44(3): 985-989.
[12]Kim D, Cho D, Yoo D, et al. Learning image representations by completing damaged jigsaw puzzles[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 793-802.
[13]Feng Z, Xu C, Tao D. Self-supervised representation learning by rotation feature decoupling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10364-10374.
[14]Xu J, Zheng Y, Mao Y, et al. Anomaly detection on electroencephalography with selfsupervised learning[C]//2020 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2020: 363-368.
[15]Hervella A S, Rouco J, Novo J, et al. Retinal image understanding emerges from self- supervised multimodal reconstruction[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2018: 21st International Conference, Granada, Spain, September 16-20, 2018, Proceedings, Part I. Springer International Publishing, 2018: 321-328.
[16]Holmberg O G, Kohler N D, Martins T, et al. Self-supervised retinal thickness prediction enables deep learning from unlabelled data to boost classification of diabetic retinopathy [J]. Nature Machine Intelligence, 2020, 2(11): 719-726.
[17]Chen L, Bentley P, Mori K, et al. Self-supervised learning for medical image analysis using image context restoration[J]. Medical image analysis, 2019, 58: 101539.
[18]Zhuang X, Li Y, Hu Y, et al. Self-supervised feature learning for 3d medical images by playing a rubik?s cube[C]//Medical Image Computing and Computer Assisted Intervention- MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13-17, 2019, Proceedings, Part IV 22. Springer International Publishing, 2019: 420-428.
[19]Zhu J, Li X Hu Y et al. Rubik's cube+: A self-supervised feature learning framework for 3d medical image analysis [J]. Medical image analysis, 2020, 64: 101746.
[20]Li Z, Zhao W, Shi F, et al. A novel multiple instance learning framework for COVID-19 severity assessment via data augmentation and self-supervised learning [J]. Medical Image Analysis, 2021, 69: 101978.
[21]Zhao H, Li Y, He N, et al. Anomaly detection for medical images using self-supervised and translation-consistent features [J]. IEEE Transactions on Medical Imaging, 2021, 40(12): 3641-3651.
[22]Li X, Hu X, Qi X, et al. Rotation-oriented collaborative self-supervised learning for retinal disease diagnosis [J]. IEEE Transactions on Medical Imaging, 2021, 40(9): 2284-2294.
[23]韩派,李雅琴,阮冰.一种基于图像变换预测的自监督GAN模型[J].武汉轻工大学学 报,2021, 40(02): 51-58
[24]Jamaludin A, Kadir T, Zisserman A. Self-supervised learning for spinal MRIs[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support: Third International Workshop, DLMIA 2017, and 7th International Workshop, ML-CDS 2017, Held in Conjunction with MICCAI 2017, Quebec City, QC, Canada, September 14, Proceedings 3. Springer International Publishing, 2017: 294-302.
[25]Li X, Jia M, Islam M T, et al. Self-supervised feature learning via exploiting multi-modal data for retinal disease diagnosis [J]. IEEE Transactions on Medical Imaging, 2020, 39(12): 4023-4033.
[26]Zhou H Y, Lu C, Yang S, et al. Preservational learning improves self-supervised medical image models by reconstructing diverse contexts [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3499-3509.
[27]He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 16000-16009.
[28]He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 9729-9738.
[29]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597- 1607.
[30]Chen X, Fan H, Girshick R, et al. Improved baselines with momentum contrastive learning [J]. arXiv preprint arXiv:2003.04297, 2020.
[31]Chen T, Kornblith S, Swersky K, et al. Big self-supervised models are strong semisupervised learners [J]. Advances in neural information processing systems, 2020, 33: 22243- 22255.
[32]Grill J B, Strub F, Altche F, et al. Bootstrap your own latent-a new approach to selfsupervised learning [J]. Advances in neural information processing systems, 2020, 33: 21271- 21284.
[33]Caron M, Misra I, Mairal J, et al. Unsupervised learning of visual features by contrasting cluster assignments [J]. Advances in neural information processing systems, 2020, 33: 9912-
9924.
[34]Sowrirajan H, Yang J, Ng A Y, et al. Moco pretraining improves representation and transferability of chest x-ray models[C]//Medical Imaging with Deep Learning. PMLR, 2021: 728-744.
[35]Chen X, Yao L, Zhou T, et al. Momentum contrastive learning for few-shot COVID-19 diagnosis from chest CT images [J]. Pattern recognition, 2021, 113: 107826.
[36]Sriram A, Muckley M, Sinha K, et al. Covid-19 prognosis via self-supervised representation learning and multi-image prediction [J]. arXiv preprint arXiv:2101.04909, 2021.
[37]Vu Y N T, Wang R, Balachandar N, et al. Medaug: Contrastive learning leveraging patient metadata improves representations for chest x-ray interpretation[C]//Machine Learning for Healthcare Conference. PMLR, 2021: 755-769.
[38]Xie Y, Zhang J, Liao Z, et al. PGL: prior-guided local self-supervised learning for 3D medical image segmentation [J]. arXiv preprint arXiv:2011.12640, 2020.
[39]Chaitanya K, Erdil E, Karani N, et al. Contrastive learning of global and local features for medical image segmentation with limited annotations [J]. Advances in Neural Information Processing Systems, 2020, 33: 12546-12558.
[40]Azizi S, Mustafa B, Ryan F, et al. Big self-supervised models advance medical image classification[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3478-3488.
[41]Lu M Y, Chen R J, Mahmood F. Semi-supervised breast cancer histology classification using deep multiple instance learning and contrast predictive coding (conference presentation)[C]//Medical imaging 2020: digital pathology. SPIE, 2020, 11320: 113200J.
[42]Zhong Z, Zheng L, Kang G, et al. Random erasing data augmentation. Proceedings of the AAAI Conference on Artificial Intelligence [J]. 2020.
[43]Perez L, Wang J. The effectiveness of data augmentation in image classification using deep learning [J]. arXiv preprint arXiv: 1712.04621, 2017.
[44]Raghu M, Zhang C, Kleinberg J, et al. Transfusion: Understanding transfer learning for medical imaging [J]. Advances in neural information processing systems, 2019, 32.
[45]Irvin J, Rajpurkar P, Ko M, et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 590-597.
[46]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality [J]. Advances in neural information processing systems, 2013, 26.
[47]Ian Goodfellow, Y oshua Bengio, Aaron Courville, and Y oshua Bengio. Deep learning, volume 1. MIT press Cambridge,2016.
[48]Tschannen M, Bachem O, Lucic M. Recent advances in autoencoder-based representation learning [J]. arXiv preprint arXiv: 1812.05069, 2018.
[49]Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders [C]//Proceedings of the 25th international conference on Machine learning. 2008: 1096-1103.
[50]Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv: 1511.06434, 2015.
[51]Creswell A, White T, Dumoulin V, et al. Generative adversarial networks: An overview [J]. IEEE signal processing magazine, 2018, 35(1): 53-65.
[52]Oord A, Li Y, Vinyals O. Representation learning with contrastive predictive coding[J]. arXiv preprint arXiv: 1807.0374& 2018.
[53]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C]//Proceedings of the 27th international conference on machine learning (ICML- 10). 2010: 807-814.
[54]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7): 1527-1554.
[55]Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2011: 315-323.
[56]金旭,文可,吕国锋,等.深度学习在组织病理学中的应用综述[J].中国图象图形学报, 2020, 25(10): 1982-1993.
[57]Yun S, Han D, Oh S J, et al. Cutmix: Regularization strategy to train strong classifiers with localizable features [C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 6023-6032.
[58]Veeling B S, Linmans J, Winkens J, et al. Rotation equivariant CNNs for digital pathology[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2018:
21st International Conference, Granada, Spain, September 16-20, 2018, Proceedings, Part II 11. Springer International Publishing, 2018: 210-218.
[59]Shen S, Han S X, Aberle D R, et al. An interpretable deep hierarchical semantic convolutional neural network for lung nodule malignancy classification[J]. Expert systems with applications, 2019, 128: 84-95.
[60]Shen W, Zhou M, Yang F, et al. Multi-crop convolutional neural networks for lung nodule malignancy suspiciousness classification[J]. Pattern Recognition, 2017, 61: 663-673.
[61]Myronenko A.3d mri brain tumor segmentation using autoencoder
regularization[C]//International MICCAI Brainlesion Workshop.Springer,2018:311 -320.
[62]Zhou C,Chen S,Ding C,et al.Learning contextual and attentive information for brain tumor segmentation[C]//International MICCAI brainlesion workshop .Springer, 2018:497-507.
[63]Chen T, Zhai X, Ritter M, et al. Self-supervised gans via auxiliary rotation loss[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 12154-12163.
[64]Misra I, Maaten L. Self-supervised learning of pretext-invariant representations [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 6707-6717.
[65]Wu J, Wang X, Wang W Y. Self-supervised dialogue learning [J]. arXiv preprint arXiv: 1907.00448, 2019.
[66]Kocabas M, Karagoz S, Akbas E. Self-supervised learning of 3d human pose using multiview geometry [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 1077-1086.
[67]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [J]. arXiv preprint arXiv: 1810.04805, 2018.
[68]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners [J]. Advances in neural information processing systems, 2020, 33: 1877-1901.
[69]Ye M, Zhang X, Yuen P C, et al. Unsupervised embedding learning via invariant and spreading instance feature[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6210-6219.
[70]Liu X, Sinha A, Ishii M, et al. Dense depth estimation in monocular endoscopy with selfsupervised learning methods [J]. IEEE transactions on medical imaging, 2019, 39(5): 1438- 1447.
[71]Bai W, Chen C, Tarroni G, et al. Self-supervised learning for cardiac mr image segmentation by anatomical position prediction[C]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13-17, 2019, Proceedings, Part II 22. Springer International Publishing, 2019: 541- 549.
[72]Jiao J, Cai Y, Alsharid M, et al. Self-supervised contrastive video-speech representation learning for ultrasound[C]//Medical Image Computing and Computer Assisted Intervention- MICCAI 2020: 23rd International Conference, Lima, Peru, October 4—& 2020, Proceedings, Part III 23. Springer International Publishing, 2020: 534-543.
[73]Wang Y, Song D, Wang W, et al. Self-supervised learning and semi-supervised learning for multi-sequence medical image classification[J]. Neurocomputing, 2022, 513: 383-394.
[74]Liu W, Li Z, Zhang H, et al. Dense lead contrast for self-supervised representation learning of multilead electrocardiograms [J]. Information Sciences, 2023, 634: 189-205.
[75]Chhipa P C, Upadhyay R, Pihlgren G G, et al. Magnification prior: a self-supervised method for learning representations on breast cancer histopathological images[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 2717-2727.