第 1 章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 3
1.2.1 传统医学影像配准研究 3
1.2.2 基于深度学习的医学影像配准研究 4
1.3 本文的主要工作 9
1.4 本文的组织结构 10
第 2 章 相关知识介绍 13
2.1 医学影像配准理论 13
2.1.1 医学影像配准问题定义 13
2.1.2基于深度学习的医学影像配准任务分类 14
2.2医学影像配准的相似性度量及评价指标 16
2.2.1 相似性度量 16
2.2.2 配准评价指标 17
2.3无监督深度学习模型相关知识 20
2.3.1 卷积神经网络 21
2.3.2U-Net 模型 21
2.4Transformer 相关知识 23
2.4.1标准 Vision Transformer 24
2.4.2Swin Transformer 相关知识 26
2.5 本章小结 28
第 3 章 分支编码及折叠校正的孪生无监督图像配准模型 29
3.1引言 29
3.2无监督的可变形配准网络模型 30
3.2.1 分支编码的初步配准模型 31
3.2.2 折叠校正模块 33
3.2.3 损失函数设置 35
3.3 实验评估与分析 37
3.3.1 实验数据及数据预处理 37
3.3.2 实验的评价指标设置 38
3.3.3 对比方法简介及本章算法实现 38
3.3.4 心脏数据集上的实验结果与分析 39
3.3.5 大脑数据集上的实验结果与分析 41
3.3.6 运行时间分析 44
3.3.7 与对比方法的显著性检测 47
3.3.8 消融实验结果分析 47
3.4 本章小结 48
第 4 章 基于 Transformer 的对称无监督图像配准模型 50
4.1引言 50
4.2基于 Transformer 的无监督对称可变形配准模型 52
4.2.1 基于卷积的高效自注意力模块 52
4.2.2基于 CEMSA 的对称 Transformer 模型 54
4.2.3 SymTrans 配准模型的无监督学习 55
4.3 实验评估与分析 57
4.3.1数据与评价指标 57
4.3.2 对比算法与本章算法的实现 58
4.3.3 对比实验结果与分析 58
4.3.4模型复杂度对比 64
4.3.5消融实验结果分析 65
4.4 本章小结 67
第 5 章 基于加权的窗口注意力分辨率恢复的上腹腔图像配准模型 69
5.1引言 69
5.2基于特征分辨率恢复及加权窗口注意力的配准模型 71
5.2.1 特征分辨率恢复网络模型 71
5.2.2 加权的窗口注意力机制 74
5.2.3 RFR-WWANet 配准模型的无监督学习 76
5.3 实验评估与分析 77
5.3.1 数据预处理与评价指标 77
5.3.2对比算法与本章算法的实现以及配准评价指标 78
5.3.3 对比实验结果与分析 79
5.3.4 在大脑数据集上进行的额外实验 86
5.3.5 与对比方法的显著性检测 87
5.3.6模型复杂度对比 87
5.3.7消融实验结果分析 88
5.4 本章小结 90
第 6 章 总结与展望 92
6.1 工作总结 92
6.2 研究展望 93
参考文献 95
第1 章 绪论
1.1研究背景及意义
随着医疗需求的增长和人工智能技术的飞速发展,人们记录和存储了大量的 医学影像数据。这些影像数据涵盖了许多具有研究价值的信息。然而,这些医学 影像数据由于受体间差异、受体间姿势及位置差异、成像设备间差异导致数据形 态及强度差异大,难以进行批量的统计分析。此外,精准医疗要求对不同模态 不同时间、不同维度的人体间的影像转换到统一空间坐标中,实现空间变换,从 而使影像中对应的信息在同一位置上达到一致匹配,这是医学影像分析中的基础 及关键技术[1]。
医学成像技术按照成像对象可以分为两类,一是解剖成像,二是功能成像 解剖成像体现人体解剖信息,如计算机断层扫描技术(Computed Tomography, CT)因人体组织的密度体现体内解剖信息;核磁共振技术(Magnetic Resonance, MR)因组织返回的信号体现体内解剖信息。功能成像体现组织结构的功能信息, 如血液流动现象、人体新陈代谢等,包括正电子发射断层扫描(Position Emission Tomography , PET) , 单光子发射计算机断层扫描( Single Photon Emission Computed Tomography,SPECT)等技术。图1.1中列出了常见的医学成像技术的 分类。
图1.1 常见医学成像技术分类
医学影像在临床中能够提供人体的体内信息,是提供诊断与研究疾病发展的 基础技术之一。医学影像配准技术在临床中的作用包括:(1)根据疾病的发展, 需要拍摄不同时间的影像,以观察兴趣区域的形态结构及位置的变化过程,帮助
医生跟踪病情以及评估治疗。使用影像间的配准可以建立目标区域的形态变化及
位置的变化过程;(2)根据组织器官的不同时间点的配准(心肌的收缩与舒张、 呼吸引起的器官滑动及肺部大小变化以及器官生长的个体差异),能够帮助医生 评估目标器官的形态变化以及该变化所表示的医学信息;(3)不同模态的影像 成像时侧重的信号不同,即不同模态的影像数据提供不同的解剖信息,因此,以 影像作为基础的医学诊断需要多种模态影像信息相结合,以此为基础作为诊断的 依据,从而提供全面且可靠的诊断报告。
通过以上配准技术在医学图像分析中的作用,医学影像配准技术在临床中被 应用到疾病诊断、图像引导的放射治疗、预后分析、手术导航以及器官运动分析 等领域中。具体应用如下:
(1) 疾病诊断
疾病诊断通常需要对进行分析,越复杂的疾病越需要多种影像进行综合判断 图像配准技术能够将多模态影像中的对应解剖信息进行对应,使影像中表示的信 息整合到一个共同的坐标系中,从而辅助医生进行全面而准确地诊断[2]。
(2)图谱分析
不同患者的解剖结构的形状、大小及位置通常是有差异的。图谱表示不同个 体的相同解剖结构的统计模型[3,4]。准确地绘制图谱对于深入了解兴趣区域的功 能至关重要[5,6]。配准将相同解剖信息对齐,是构建图谱的关键技术。此外,通过 将受体的影像配准到图谱上进行分析,能够更加直观的观察和评价该病情[7,8]。
(3)图像引导的放射治疗及预后分析
在对病人实施放射治疗过程中,使用刚体配准指导病人摆位[9],对肿瘤靶区 投放精确的辐射剂量,从而有效的控制治疗肿瘤。在放射治疗过程后,需要使用 可变形配准检测目标区域的变化情况,进而调整治疗计划[10]。此分析方法也应用 在药物治疗的预后分析中[11]。
(4)手术导航
在手术过程中,为了精准的定位目标区域,确定目标区域的形态和位置信息, 需要对术中和术前的影像进行配准[12-15]。利用配准后的影像辅助医生对目标区域 的评估与分析,指导手术过程中的定位。
2
(5)器官运动分析 一个病人不同时间段内的影像间配准能体现出器官运动的定量特性。在肺通 量计算过程中,通过配准两幅影像,可以估计肺通量[16-18];通过配准心脏两个阶 段的心肌影像,可以估计出心肌的运动模式,从而评估心脏功能[19-22]。
1.2国内外研究现状
1.2.1 传统医学影像配准研究
医学影像配准模型的目标是找到一组变换,将两幅影像中对应的解剖结构对 齐。一般医学影像配准方法根据影像中体素的强度信息,计算影像间的体素的强 度关联性,从而构建两幅影像间的空间变换。影像间强度的关联一般通过相似度 函数计算,从而量化体素间的相关性,以此求解最优的变形场。传统医学影像配 准技术包括:
(1)基于插值的变形配准模型,例如径向基函数模型[23,24]及薄板样条模型 [25,26],这些方法在求解配准问题时具有简单、稳健及快速的优。这些方法难以准 确地求解局部变形,对于求解较复杂的变形时,这些模型计算的变形场可能与解 剖结构的物理运动规律不一致。
(2)基于物理的配准模型从弹性、扩散和微分同胚的物理性质求解影像的变 形。经典扩散配准模型如Demons[27],能够提供密集的变形场。受到Demons方 法的启发,Vercauteren等人[28 ]提出了微分同胚的Demons方法,使变形更加平滑。 Lan等人[29]将方向信息引入到Demons模型中,优化模型的求解精度。针对需要 大变形的配准问题,Beg等人[30]提出了大微分同胚距离度量映射(Large Diffeomorphic Distant Metric Mapping, LDDMM)算法。该方法能够保证在大变 形过程中,对应的体素、结构间的变形遵循流场的特性,使变形过程符合生物医 学中的实际规律。基于LDDMM,Shen等人⑴]提出了区域指定的微分同胚度量 映射(Region-specific Diffeomorphic Metric Mapping),使影像中每个区域都有自 己的正则项。为了保证变形的逆一致性,即保证交换待配准两幅图像顺序后,所 求的结果与正向计算的结果互为逆,Avants[32]等人提出了对称归一化(Symmetric
Normalization, SyN)方法。
传统方法以迭代的方式优化相似度损失函数,在解空间内按照既定策略寻找 最优的变形场,以实现浮动图像的变形,使变形后的图像与参考的图像最为相似。 然而传统方法每配准一对影像时都需要进行大量的迭代,计算耗时并需要大量的 计算资源,需要的计算时间以及计算资源随着输入图像尺寸增大而急剧增加,并 且这些方法的模型还有复杂的参数设置。此外,按照既定策略迭代优化一对影像 容易陷入局部最优解的陷阱,从而影响配准的结果。
1.2.2基于深度学习的医学影像配准研究
鉴于上述的传统医学影像配准的研究现状,其局限性体现在计算复杂度高、 处理耗时上。在过去十年间,深度学习技术已经快速发展,并在各个研究领域中 展现出优越的性能。深度学习技术以强大的学习及特征提取能力,以数据为基础, 在诸多如自然语言处理[33,34](Nature Language Processing,NLP)、计算机视觉[35- 37](Computer Vision,CV)及生物信息学[38,39]等领域内被广泛的应用。受深度学 习,特别是卷积神经网络[40,41] (Convolutional Neural Network, CNN)在各领域 内成功应用[40,41]的影响,学者们开始尝试在医学影像分析中应用深度学习技术。 首先,深度学习在医学影像分割的任务中快速的发展。在医学影像分析任务中, 使用深度学习技术的领域包括如兴趣区域(例如肿瘤、器官、细胞等)分割[42-52], 病灶检测[5"4]、疾病诊断[5"6]及分类[57,58],特别是UNet[49]及其变体[妪5®]提出之 后,基于卷积神经网络的医学影像分析任务开始快速发展。受到深度学习在医学 影像分析任务的成功应用所启发,配准任务也逐渐开始使用深度学习技术。目前 基于深度学习的方法大多基于类似UNet的U型结构。使用U型结构进行配准 的优点是模型参数量小、不需要大量样本即可获得好的结果。同时编码器、解码 器的结构能够将提取的深度特征还原为所需的全分辨率的变形场。此外,跳跃连 接也可以防止模型在学习变形时丢失浅层的特征信息。基于深度学习的医学影像 配准方法与传统方法相比,具有一经训练后预测变形场速度快的优势,变形准确 性高的特点。
基于深度学习的医学影像配准方法按照配准对象可以分为两类,一是单模态
4
影像配准,对象是输入同一模态的医学影像数据;二是多模态影像配准,多模态 影像配准对象是一对不同模态的影像数据。两种配准方法都可以按照训练的方式 分为有监督及无监督训练。本文按照模型的训练方式将基于深度学习的配准方法 分为监督训练模型与无监督训练模型两类进行介绍。本文中监督训练模型包含有 监督训练,即模型的训练使用变形场标签;弱监督、半监督训练这两种使用非变 形标签的额外信息(如解剖结构的分割标签)来训练的模式也被划分到有监督训 练模型的类别内;无监督训练,即模型的训练不使用除了待配准的两幅影像外其 他的数据。
(1)监督训练模型
监督训练的模型使用真实标签来训练模型学习模型的权重。监督配准模型的 标签是指给定的变形场。与其他的基于监督的医学影像分析任务一样,基于监督 的医学影像配准模型需要计算标签与预测结果的相似度,从而指导模型权重的更 新。具体来说,一对影像输入到模型之后,在模型的前向传播过程中预测出变形 场,通过计算预测的变形场与真实标签变形场的相似程度,反向传播更新模型的 权重。
监督训练能够直观的指导模型的学习过程,是训练配准模型的最直接的方式 Yang等人[59]于2017年提出了一种基于LDDMM的有监督配准模型。该模型利 用 LDDMM 生成的变形场,利用生成的变形场作为模型训练的标签,使用提出 的编码-解码器模型来参数化配准问题。结果表明,使用深度学习模型可以大量 的减少预测变形场时间,同时能提高配准的准确性。Cao等人[6°]提出了一个用于 大脑MR影像的块相似度引导的模型。该模型使用SyN和Demons生成变形场 标签,同时为了解决变形场标签过度影响模型学习的问题,此模型提出了均衡的 引导采样策略。在相同数据集及不同数据集的实验结果表明该模型的准确率高于 SyN与Demons。由于监督信息是由传统算法生成的,这些变形场标签有可能是 不准确的。为解决该问题,Fan等人[61]提出了基于双重指导的配准模型。双重指 导配准策略分为两步,一是使用传统算法生成变形场标签,二是利用网络预测的 变形场配准输入的大脑 MR 影像,通过计算配准后的影像之间的差异来指导模 型学习权重。这种使用外观上的差异来训练模型的方式能够避免模型对监督信息
的过度依赖。
以上几种方法使用的是基于传统算法生成的变形场标签,这种方式生成变形 场标签的置信度不高,因此,有学者尝试进行人工标注变形标签来有监督的引导 模型训练。Sokooti等人[62]提出RegNet使用胸部CT数据训练配准模型。该研究 中使用了人工标注的变形场,证明了使用人工变形场训练模型是有效的。 Zheng 等人[63]提出双向的SymReg-GAN模型,该模型能够同时预测正向和逆向变形场。 SymReg-GAN 使用标签数据训练生成器网络,对应的判别器网络则使用无监督 的方式训练。其中生成器网络输出正向和逆向变形场,使用变形场标签与生成的 正向变形场计算损失函数,从而指导模型权重的学习。然而,监督模型存在一个 最大的问题就是标签变形场的获得方式。如果使用传统算法生成的变形场,那么 这些生成的变形场是否足够准确无法确定;如果使用人工标注的变形场,那么会 极大的耗费医生的时间与精力,抢占医疗资源。因此以机器生成的方式或是人工 的方式来标注密集的变形场都是不现实的。基于上述的真实标签难以获得的问题 有监督的配准方法在实际中很少应用。
为了避免变形标签难以获得的问题,同时又要使用有意义的信息指导模型学 习权重,有些学者将注意力转移到半监督(Semi-Supervised)、弱监督(Weakly- Supervised)的学习方式上。在基于深度学习的配准方法中,学者们对半监督、 弱监督的定义比较模糊,所以本文中介绍的半监督、弱监督模型的定义方式都是 遵循文献中学者们的定义。使用额外信息指导模型训练的方法如,Xu等人[64]提 出的联合分割配准模型,该模型使用分割标签作为半监督信息。使用分割模型补 全缺少分割信息的影像,利用分割图之间的相似度以及影像对之间的相似度,指 导配准模型的训练。同时,将变形的后的影像输入到分割模型中,将变形影像作 为分割模型的增强数据。这种联合分割与配准的模型在膝盖和大脑的 MR 影像 上验证结果表明,使用半监督信息指导模型的训练是一种有效的方式。 Shao 等 人[65]提出了前列腺配准的模型,该模型使用医生手动标注的前列腺分割标签作 为配准模型的弱监督信息,来指导模型对于前列腺形状变形的学习,实现更高的 配准精度。Wang等人[66]提出了结合仿射变换的配准模型,该模型利用分割标签 来训练多模态的配准模型oBlendowski等人[67]提出了基于标签变形的配准模型,
6
该模型使用变形后的分割标签及变形后的影像同时计算损失函数来训练模型,在 腹腔CT及MR影像的两种模态上进行配准,取得了较好的结果。Wodzinski等 人[68]提出了对称U-Net模型进行大脑MR影像配准,该模型使用脑功能区域分 割标签作为半监督信息训练模型的权重,在大脑 MR 影像集上该方法取得了较 好的结果。
(2) 无监督训练模型
在实际应用中,使用任何标注过的医学影像作为配准模型的监督信息都是不 实际的且不够严格准确的。一是因为密集的变形场要考虑影像中每个体素的变形 通常3D的医学影像包含极大数量的体素点,所以对两幅影像中的体素点进行关 联及对应体素点的匹配工作量巨大,浪费医生宝贵时间;二是因为无论基于传统 算法生成的变形场还是使用分割标签,都无法准确地监督模型的训练,确切来说 就是传统方法生成的变形场本身就有一部分误差,并且半监督的分割标签只能保 证分割图表示的兴趣区域能够被监督的指导变形,其他区域则还需要模型推理, 不能保证这些区域符合实际的变形,使模型收到严格的监督。因此,大量学者将 目光聚焦于无监督配准方法的研究。
以无监督的方式训练配准模型不需要除影像外的任何额外信息。无监督训练 的模型关注的是输入影像间的体素强度相似性,按照每个体素的强度相似程度指 导模型的学习,因此,无监督配准模型关注的是两幅影像强度、形状等空间信息 的相关性,目标是将两幅影像变化到最相似的程度。 Vos 等人[69]于2017提出了 DIRNet,一个不需要标签来指导模型学习的配准框架来学习心脏MR影像间的 变形。该框架使用CNN模型预测出变形场的控制点,使用这些点控制影像的变 形。由于该模型预测的是目标变形的控制点,因此该模型实现的是非密集的变形, 无法准确地构建每个体素间独立的对应关系。 Lv 等人[70]提出了使用 CNN 校正 在呼吸时腹部MR影像的变形研究。为了预测密集的变形场,Balakrishnan等人 W2]提出了 U型结构的无监督配准模型VoxelMorph,该模型在基于深度学习的 配准模型当中具有里程碑式的意义。 VoxelMorph 能够预测密集的变形场,并且 该模型在大脑 MRI 数据集上取得了比传统方法更高的准确率,预测一对影像变 形场的时间远远低于传统配准模型, 并且不需要标签信息进行训练。 受
VoxelMorph 启发,许多学者在基于深度学习的无监督密集变形场预测模型上进 行了大量的研究。Zhao等人[73]基于VoxelMorph提出了级联的配准模型,该模型 级联了多个子模型,每个子模型预测自己的变形场,然后根据预测的变形场输出 变形后的影像,后一个子模型根据前一个变形后的影像学习新的变形场,直到最 终预测的变形场。Dalca等人[74]提出了基于概率的微分同胚配准模型。该模型固 定速度场在单位时间内合成最后的位移场,从而使预测的变形场符合微分同胚的 性质。Liu等人[75]提出双重概率模型来改善基于概率模型的准确性。为解决配准 模型使用网格搜索参数配置需要花费大量时间的问题, Hoopes 等人[76]提出了自 动调参的无监督配准模型,该模型将超参数作为可学习的项,使模型自己调节训 练过程中的超参数,达到自适应调节超参数在配准损失函数中的目的。为了使配 准模型能够满足变形的各种物理特性,Mok等人"I提出了对称配准模型SYMNet, 该模型在预测变形场时同时输出正、逆变形场,利用固定速度场保证微分同胚配 准的性质时同时满足逆一致性。Kim等人[78]提出了循环一致性网络CycleMorph, 利用循环一致的性质保证模型输出的循环对称的性质,从而使模型学习到折叠更 少的变形。为了使模型能够学习大变形的能力,Zhang等人I79】提出了级联的多尺 度配准模型,该模型利用多尺度损失函数,利用由粗到细的学习变形的方式使模 型能够对大变形进行预测。 Mok 等人[80]提出了基于拉普拉斯网络的微分同胚配 准模型,该模型基于拉普拉斯网络,在多尺度的影像上预测变形场,以达到预测 微分同胚的大变形场的目的。
最近,由于一些工作[81-84]表明Transformer[85]在计算机视觉任务中的出色性 能, Transformer 引起了学者们的广泛关注。部分学者们将注意力转移到利用 Transformer解决医学影像分析的任务[86-88]中。Cheng等人[89]将Transformer引入 到无监督的可变形医学影像配准的研究之中,提出了 ViT-V-Net,实验结果表明 该模型取得了比基于CNN的模型更好的结果。Song等人[90]提出了在编码器中使 用Transformer的模型,其实验结果表明在编码器中使用Transformer的性能高于 在模型底部使用Transformer的性能。Shi等人[91]提出了在Transformer中进行交 叉交互的模型,对待配准的一对影像间的深层特征进行交叉交互。 Yang 等人[92] 利用Transformer提升模型的特征表达能力,实验结果表明Transformer强大的特
8
征表达能力能够提升可变形配准模型预测变形场的准确率。Zhang等人[93]提出构 建对偶的Transformer模型来进行微分同胚的配准。由于Transformer本身计算的 高模型复杂度以及大量的参数,Liu等人[94,95]提出了 Swin Transformer的骨干网 络,利用类似卷积神经网络的模式将注意力局限在窗口范围内,从而缩小 Transformer的模型复杂度及参数量。利用Swin Transformer的参数量小,模型复 杂度低的特点,Chen等人[96]提出了 TransMorph,该模型在编码器中使用Swin Transformer模块。在实验中将该模型作为各个配准模式的基本模型,都取得了较 好的结果,表明了 Swin Transformer 相比于标准的 Transformer 更适合作为可变 形配准模型的基础模块。Zhu等人[97]以VoxelMorph为基础,将Swin Transformer 作为骨干网络替换进VoxelMorph中,实验结果表明这种替换提升了配准性能。
此外,由于神经常微分方程[98-100(] Neural Odinary Differential Equation,NODE) 的发展,一些研究[101-104]将神经网络作为一个常微分方程的解,通过反向传播来 迭代的优化模型,利用连续时间内的动力学系统描述,来逐渐逼近微分方程的解。 本文重点关注无监督的深度学习方法在医学影像配准中的应用及研究,对可变形 的无监督配准任务提出优化的模型,从而提升针对不同脏器、不同模态影像上的 配准准确性。
1.3本文的主要工作
基于以上综述的研究介绍,基于深度学习的无监督配准模型已经成为当下医 学影像配准任务中的研究热点。可变形配准作为医学影像分析中的基本和复杂的 任务,利用深度学习技术,特别是 CNN 及 Transformer 作为配准模型的基本模 块,可以在极短的时间内计算一对影像中体素间的对应关系,构建体素间影像空 间内的关联,从而得到密集的变形场。
针对基于 CNN 及 Transformer 的可变形配准模型设计仍然存在的不足,本 文提出了三种有效的可变形配准模型。研究内容具体如下:
第一,针对现有的可变形医学影像配准方法将一对影像拼接起来作为其模型 的一个输入,过早进行融合特征提取会忽略影像间的独立的、内在的解剖相关性。 此外,使用全局正则化会导致模型约束过度或模型约束不足,影响模型配准精度
以及变形场的过度平滑或欠平滑。为了解决这两个问题,本文提出一个由两个子 网络组成的孪生网络模型,用于心、脑图像配准:(1)提出的用于预测高精度 变形场的独立编码神经网(Separate Encoding Network, SEN) ; (2)折叠校正
模块(Folding Correction Block,FCB)以校正模型输出的变形场,实现变形场中 折叠减少的目的。
第二,针对基于 CNN 的可变形配准模型受到卷积核大小导致的感受野受限 的问题,本文提出了能够对远程关系建模的、基于Transformer的可变形脑图像 配准模型。为了解决Transformer中参数量大、模型复杂度高,难以在高分辨率 阶段使用的问题,本文基于标准的Transformer提出了基于卷积的高效多头自注 意力(Convolutional Efficient Multihead Self-Attention, CEMSA)模块。基于 CEMSA,本文构建了对称的可变形配准模型SymTranSo SymTrans模型中的编码 器和解码器均使用基于CEMSA的Transformer模块来对影像空间内的远程体素 相关性进行建模。
第三,对针对基于 Transformer 的模型将医学影像拆分为“词”,导致配准 模型中的Transformer只能对的粗粒度特征的空间信息建模和输出粗粒度特征的 问题。本文提出了特征分辨率恢复网络(Recovery Feature Resolution Network, RFRNet),使Transformer能够提供细粒度的空间特征信息和丰富的语义对应关 系。此外,针对 Swin Transformer 中移动窗口划分操作的不灵活,无法感知不确 定距离的语义信息相关性、以及自动的构建窗口之间的全局关联的问题,本文提 出了一种加权窗口注意(Weighted Window Attention, WWA)机制,以实现在Swin Transformer 模块的常规和循环移位窗口划分操作之后自适应的构建窗口之间的 全局交互,基于这两种解决方案,本文提出了可变形的上腹腔图像配准模型RFR- WWANet,用于建模体素对应复杂的腹腔图像配准问题。
1.4本文的组织结构
本文由 6章构成,每个章节内容简介如下:
第1章绪论。首先介绍医学影像配准任务的目的及研究意义。随后阐述了当 前国内外在医学影像配准上的研究现状,包括传统法法以及深度学习的方法。最 10
后说明本文在基于深度学习的无监督可变形医学影像配准任务的主要研究内容 和工作。
第2章相关知识介绍。首先介绍医学影像配准的目标函数,然后介绍深度学 习的相关知识,包括CNN及Transformer,最后详细介绍了几种医学影像配准任 务中的损失函数及评价指标。
第3章 分支编码及折叠校正的孪生无监督医学图像配准模型。针对一般配 准模型忽略影像独立特征信息建模的问题,提出 SEN 分支编码器,独立的提取 单个影像的特征;针对变全局平滑正则项过约束或欠约束变形场平滑的问题,提 出FCB校正变形场中的折叠。通过在心脏超声图像及大脑MR影像上与多个算 法的实验对比,表明SEN-FCB可以有效的提升配准精度,并且可以在不牺牲较 多配准精度的同时减少变形场中的折叠。同时通过消融实验表明 SEN 网络的设 计是有效的,并且FCB也能够校正对比算法预测出的变形场的折叠。
第4章基于Transformer的对称无监督医学图像配准模型。针对一般基于 CNN 的配准模型受限于卷积操作自身局部感受范围的限制,无法感知及建模远 程体素间关联的问题,提出基于 Transformer 的无监督配准模型。其中,针对 Transformer 本身参数量大、模型复杂度高的问题,提出 CEMSA 模块。基于 CEMSA 模块,构建对称的基于 CEMSA 的 Transformer 配准模型。通过在大脑 MR影像数据集上的实验结果,表明提出的对称的Transformer模型能够有效的 提升一般配准及微分同胚配准的精度。通过消融实验表明构建对称的Transformer 结构是有效的。
第5章基于加权的窗口注意力及分辨率恢复的上腹腔图像配准模型。针对 腹腔图像内体素间关系对应困难、变形复杂的问题,以及针对基于 Transformer 的模型只能建模和输出粗粒度特征信息的问题,提出了特征分辨率恢复网络 RFR-Neto此外,针对移动窗口划分操作不灵活,无法灵活的构建全局间窗口内 信息的交互的问题,提出了一种加权窗口注意WWA机制,用于在Swin Transformer 划分的窗口间建立全局范围的信息交互。基于这两种解决方案,提出 了针对体素对应复杂的腹腔可变形图像配准模型RFR-WWANeto在腹腔CT数 据集上的实验结果表明,RFR-WWANet的性能领先与最近的基于Transformer的
方法,并且消融实验表明所提出的RFR-Net及WWA对于提升配准性能是有效 的。
第6章 总结与展望。对本文的基于深度学习的医学影像配准研究内容进行 总结,展望未来研究方向。
12
第2 章 相关知识介绍
2.1医学影像配准理论
在本节中,首先介绍医学影像配准问题的基本描述。然后介绍医学影像配准 的两大分类:刚体配准以及可变形配准。通过配准问题的描述,介绍可变形的医 学影像配准任务的基本流程。最后,将流程中的损失函数展开,分别介绍在医学 影像配准任务中的相似性度量及变形后的相似度评价指标。
2.1.1医学影像配准问题定义
医学影像配准任务的目的是找到一对影像间的最优变换,使被变换后影像与 目标影像相似。其中,被参考的影像,即需要被变形的影像称为浮动图像(Moving Image);目标影像被称为固定影像(Fxied Image)。给定一组影像,其中Im为浮 动影像,If为固定影像。Im, If^RDXH,表示Im,If分别是定义在2D空间内的平 面图像;;m, If &RDXHXW表示Im,,是定义在3D空间内的立体影像。定义在RDXHXW 空间内的每个表示影像强度的值被称为体素(Volume) o医学影像配准的目标函 数如公式(2.1)所示:
6 = argmin y,If ,0) (2.1)
式中,C为损失函数,0为变形场。公式(2.1)表达的含义是输入影像Im与f 在一个变形场0时,取得最小的损失函数值,则表明该变形场为最优变形场0。 损失函数C 一般使用相似度函数与正则项构成,具体定义如公式(2.2)所示:
g,If ,6) = Gm (A。04 ) + 4eg (2.2)
式中,Im °0表示利用变形场来扭曲浮动影像后的结果影像,。表示插值运算, Ci”为计算相似度的损失函数,计算变形后的影像Im °0与固定影像If的相似度。 Greg为正则项,用来限制模型输出的变形场平滑,2为是超参数,用来权衡Gm
与Creg在整体损失中的作用。结合公式(2.1)与公式(2.2),表明医学影像配准的目
的是以既定的搜索策略,迭代的找到一个最优变换,使变换后的浮动影像与固定
影像最为相似。图 2.1 表示上述搜索最优变形场的流程图。
2.1.2基于深度学习的医学影像配准任务分类
根据预测目标的不同,基于深度学习的医学影像配准任务可以分为两类:(1) 基于线性变换的配准;(2)基于非线性变换的配准。
基于线性变换的配准也称刚体配准,目的是得到一组参数,利用该参数对浮 动影像进行线性配准,使变换后的影像在整体形状不改变的前提下与固定影像相 似。基于线性变换配准模型计算的参数包括所有体素的平移、旋转、缩放的参数, 利用这些参数构成的矩阵,可以对影像中每个体素进行统一的变换。以3D影像
为例,基于线性变换的配准中,每个体素点都可以用公式(2.3)表示。
式中,x', y', z'分别表示新的坐标点;x, y, z分别为该体素的初始坐标点; a为影像旋转、缩放和侧切的参数;b为平移距离。
基于非线性变换的配准也称可变形配准,该配准方式需要计算每个体素点的 位移方向及大小,即每个体素都需要在空间中各方向上有自己的位移向量。以2D
14
图像为例,图2.2中展示了一个2D非线性变形场的例子。基础网格表示每个像 素的初始位置,利用非线性配准模型得到的变形场表示为0。对于2D图像,0由 双通道的矩阵构成,双通道表示像素在两个方向上的位移,矩阵中每个元素表示 每个初始网格坐标在横轴和纵轴上的位移分量;对于 3D 影像, 0由三通道的矩 阵构成,三通道表示在三个方向上的位移,矩阵中每个元素表示每个初始网格坐 标在三个坐标轴上的位移分量。经过对网格中每个初始坐标点的移动之后,即可 得到变换后的网格,如图 2.2中蓝色网格所示。这种形式的变换即称为非线性配 准,也称为可变形配准。
得到变形场之后,由于图像的坐标点可能变为非整数,因此使用插值对图像 进行插值,即可得到变形后的图像。在基于深度学习的模型中,利用空间变换网 络[105](Spatial Transformation Network,STN)完成对影像的变形。以 2D 图像为例, 设2D图像Im中像素的位置为P,变形场为"(p),则新的位置为p = p + u(p)。 具体插值计算如公式(2.4)所示:
Im"=工 Im (q) n (1 "I P'd - qd |)
其中,O(p')为p的邻居像素集合,d表示维度,即2D图像时,d = 2。利
用u(p)和公式(2.4)对Im进行插值,即可得到变形后的图像Im。©。
2.2医学影像配准的相似性度量及评价指标
在本节中,介绍医学影像配准中经常使用的相似性度量及评价指标。相似性 度量能够指导深度模型的权重学习,由于深度学习的模型是一个黑盒模型,选用 适当的损失函数对模型权重的学习至关重要。评价指标是衡量一个配准模型准确 程度的函数,不同的评价指标从不同的角度将模型的性能量化为数字上的表现。
2.2.1相似性度量
均方误差[30] (Mean Square Erro, MSE)作为最为常见的相似度函数,经常用 于评估单模态的影像对在每个体素上的相似程度。结合2.1 节中的定义,配准中 MSE 的定义如公式(2.5)所示:
1
MSE dm", If ) = - E( If (P) - [Im。©]( P))
R puR
MSE在计算相似度时,考虑每个体素的强度,计算影像对中相同位置上体素 强度的欧式距离,以此来衡量两幅影像的相似程度。
归一化相关系数[32] (Normalized Correlation Coefficient, NCC)相对 MSE 的 计算方式较为宽松,如果影像对中两幅影像不属于同模态,在这对影像间的体素 强度存在线性关系的话,利用 NCC 能够更好的评估该影像对的相似性。 NCC 的 定义如公式(2.6)所示:
工([Im。0](Pi) - [Im。0](P))(If (PJ - If (P))
(2.6)
工([Im °©](Pi) - [Im °©](P))
其中,[Im °©](P)与If(P)分别表示变形后的浮动图像中体素P,邻域内的均
16
值,以及固定图像中体素p,邻域内的均值。该邻域的定义为一个立方体范围内, 该邻域范围在需要使用NCC前定义。根据上述NCC的计算方式,由其在局部区 域内的计算方式可以看出NCC更为关注局部内信息的关联。
互信息[106,107] (Mutual Information,MI)度量作为广泛应用在各领域内的相 似度函数,是跨模态配准中最常用的损失函数。基于信息论和联合熵度量的影像 对之间统计相关性方法,其定义如公式(2.7)所示:
MI (Im。0, If ) = H (If ) + H (Im °0) - H (Im。0, If ) (2.7)
其中H(If )与H(Im °0)分别表示固定影像与变换后的浮动影像的信息熵,分 别如公式(2.8)与(2.9)所示:
H (I)=-工 PI (x)log P (x) (2.8)
x
H(Im°0,If) = - E P”°0,If (x』)log P” 01 f (xj) (2.9)
Im°0,If
式(2.8)中,Pj (x)表示影像I内强度值x的概率,好”也(x,y)为变换后的浮动 影像与固定影像的联合概率密度。根据上述公式所述,互信息反映影像对之间直 方图的分散程度,并非直接基于影像的强度值进行计算,因此被广泛应用于多模 态配准任务之中[108-110]。
2.2.2配准评价指标
上述配准相似度度量是基于体素强度的,虽然评价指标需要评估变形后浮动 影像与固定图像的相似程度来判断配准质量,但是仅依靠体素之间的强度相似程 度无法全面的评估配准质量。同时,对于医学图像来说,某些区域的变形结果相 比于其他区域的变形更加重要。因此需要使用特定的评价指标来计算配准后的量 化指标来评估配准质量。
Dice系数(Dice Coefficient Score)作为最经常使用的医学影像分割指标,也 经常应用在医学影像配准任务中。Dice系数的计算方式如公式(2.10)所示:
Is; n (s; ° 0)1
Dce(sIf,佥 °0)=2 (2'10)
其中,sIf表示固定影像的编号为k的分割图,s;”5表示浮动影像对应的编 号为k的分割图经过变形之后的结果。由于分割图在变形之中不可以产生分割标 签外的值,因此,。在这里为最邻近插值操作符,以保证变形后分割图的正确性。 由式(2.10)可以看出,Dice的目的是计算变换后的浮动影像分割图与固定影像的 分割图的重叠部分所占比重。
Hausdorff距离(Hausdorff Distance, HD)计算分割图表面距离的最大值,其 定义如公式(2.11)所示:
HD, s:”。林=max( min ||兀-y-||) (2-11)
f m xiusIkf yiusIkm 。©
其中,s;f与s;”。©为分割图的边界点集,即s: = {x”x2,…,xN}, s:m°© = {M,y2,…,yN},兀为s;f中的一个点,yi为s;”。©中的一个点。Dice计算 面积比,对内部填充敏感。而HD针对分割图的边界,计算两个分割图之间的边 界距离,用来描述分割图的最大边界差异。
结构相似性[111,112] (Structural Similarity, SSIM)基于影像对之间体素强度的 相关性衡量影像对的相似度。体现在体素强度上的影像间的相关性可以表示这两 幅影像各自的结构信息。首先, SSIM 分别要确定亮度对比度,对比度值以及结 构对比度。亮度对比度l(Im °©,If )如公式(2.12)所示,对比度函数c(I”。©,If)如公
式(2.13)所示,结构对比度s(Im o©,If)如公式(2.14)所示:
式中,内” o©与也分别为变换后的浮动影像及固定影像各自的体素强度的均
值,%o©与九分别为变换后浮动影像的及固定影像各自的方差,%为变换 后影像与固定影像的协方差,G, c2以及c3是常数。上述常数的计算方式为:
18
G = (k]L)2,C2 = (k2L)2, C3 = C2/2,其中L为体素强度值的动态范围,,]=0.01,
k2 = 0.03。利用公式(:212)、(2.13)以及(2.14)即可得到SSIM的加权组合:
SSIM(Im ° 0, If) = l(Im °0, If 丫 ・c(Im ° 0, If )" • s(Im ° 0, If ) (2.15)
其中,a, 0与了为权衡系数,用来调节三个指标在SSIM中的重要性。当
a, 0与了为1时,SSIM可以简化为以下形式:
SSIM(Im °0,If) =+C1)(2?m二
(“I” °0+ 卩lf + C1)(CTIm °0+ 6f + C2)
配准质量的好坏,除评估图像相似程度之外,还应该评估预测的变形场的物 理实际性。在现实物理模型中,解剖结构具有其固定的拓扑属性,因此,该拓扑 属性会体现在影像中,同时,利用变形场变形后的影像也该保留其原有的拓扑性
质,即解剖结构间的空间关系不应改变。雅克比矩阵(Jacobian Determinant)就是
义如公式所示:
其中,0x, 0y以及0z分别表示三个方向上的变形场。变形场的雅可比矩阵是
由每个方向上变形的导数形成的二阶张量场。雅可比行列式的行列式可用于分析 变形场的局部特性。当在p点时,J0> 1表示这里的变形场导致影像体积膨胀; 0 < J0 < 1表示这里的变形场导致影像体积变小;J0 < 0表示这里的变形场出现 折叠现象,其拓扑性质被破坏。图 2.3 展示了一个虚拟的变形场,含有膨胀、缩 小、折叠的变化。其中,绿色框表示发生膨胀的变形,蓝色框表示缩小的变形, 红色框表示发生折叠的变形。
图2.3 含有膨胀、缩小、折叠的变形场示例
医学影像配准中没有绝对衡量方式来评估配准质量的好坏。在评估配准质量 时,需要根据不同的配准方式、不同的配准对象来选择相匹配的评价标准来衡量 结果的准确性。在具有分割标签时,可以使用Dice以及HD来衡量由标签表示 的重要解剖区域的配准精确度,这也是临床中需要关注的重点区域。在没有分割 标签时,可以使用SSIM来衡量配准后影像与固定图像的结构相似度。与以上衡 量配准后影像相似质量不同的是,变形场的雅克比矩阵关注的是变形过程中,哪 些点的变形破坏了原影像中的拓扑性质。通常,医学影像配准方法从配准相似度 与折叠点的数目来衡量。
2.3 无监督深度学习模型相关知识
监督学习和无监督学习是由训练过程中是否有标签样本参与来定义的。理论 上,深度学习模型[113,114]如果使用真实标签训练,模型会不断拟合预测结果与真 实标签,从而使模型的结果更加准确。但是对于医学影像配准任务来说,由于真 实的人工标注变形场获取困难,获取的时间成本、人力成本高,因此,使用无监 督的方式训练医学影像配准模型更能符合实际需求。此外,全卷积的神经网络能 够对每个点在各方向上的位移做出预测,即预测结果为密集变形场,更加符合解 20
剖结构的实际变形需求。综上所述,本节分别介绍卷积神经网以及全卷积神经网 络模型中的经典模型 U-Net。
2.3.1卷积神经网络
神经网络中,如前馈网络[115] (Feedforward Neural Network, FNN)是由若干 层神经元构成的简单的人工神经网络。它模拟人类脑神经处理信息的机制,通过 单向的链接两个相邻的层来传递信号,在这个过程中为建模的信息分配不同的权 重,提取多层次的信息特征。传统的前馈网络存在的局限性如下:(1)由于前 一层的每个神经元都要与后一层的每个神经元相连接(即全连接的方式),因此 导致参数数量大,模型复杂度高。这种密集连接的网络同时需要大量的数据以防 止模型过拟合。(2)对于医学影像来说,前馈网络无法获取对应体素之间的空 间对应关系。(3)非平移不变性:在图像与影像中,前馈网络中不同位置的神 经元难以建模不同空间位置上的相同特征。
相比于前馈网络,卷积神经网络[116] (Convolutional Neural Network, CNN) 更为高效,同时具有平移相等的性质。 CNN 高效的原因有:(1) 局部连接特 性, CNN 中每一层的节点非全局连接,而仅仅是与上一层固定范围内的有限的 节点相连接。(2)权重共享特性,卷积神经网络中的卷积由图像共享,每一个 卷积滑动提取一个图像不同位置上的特征,保证了模型具有平移相等性,同时共 享权重的方式大大减少了模型的参数量。(3)卷积神经网络可以利用不同步长 的滑动,或是池化操作来对图像和特征进行下采样,对信息进行缩减,保留有意 义的特征信息,并且能进一步减少模型的参数量。
2.3.2U-Net 模型
利用上述CNN的特性,许多基于CNN的模型被提出,如ResNet[117], RCNN 系列[118-120]。这些模型通过不断缩小特征的尺度,同时增加特征的维度来达到对 图像高维建模的目的,以实现图像识别、目标检测等任务。然而,对于医学影像 来说,由于3D医学影像含有的信息量巨大,使用全连接的方式输出结果会极大 的增加模型的参数量,同时无法保证模型预测的准确性。因此,2015年U-Net[49] 医学图像分割模型被提出,随后被广泛应用在各种医学影像分析的相关任务中。
图2.4为标准的U-Net网络模型结构。U-Net由编码器、解码器构成。编码 器负责对输入影像提取特征,影像特征的尺度按照每层1/2的比例逐渐缩小,同 时特征的维度逐渐增加,直到模型的底部。在解码器中,上采样模块负责对高维 的特征进行上采样操作,每层将特征尺度还原到上一层的尺度。使用跳接(Skip Connection)将编码器与解码器中对应层的输出特征连接起来,再使用卷积操作 将合并后的特征信息融合,然后使用上采样操作还原特征图分辨率到上一个阶段 直到最后根据任务需求输出所需要维度的特征图。
由图2.4可以看出,U-Net逐渐缩小特征的尺度,理论上扩大了模型的感受 野,同时能够将底层特征的结构信息和深层特征的语义信息融合,加强了模型对 影像信息的建模能力与特征表达能力。此外,U-Net模型参数少,训练快,利用 跳接能够将模型深层丢失的信息通过与浅层特征结合的方式进行补全,防止特征 信息丢失导致的模型准确性下降。同时,在减少参数量的同时还能保证输出与输 入图片尺寸一样的分割图。
从医学影像角度来看,医学影像本身数据集较少、每个数据集中的数据量小, 并且影像中所有特征都很重要。结合上述U-Net模型的特点,U-Net成为了医学 影像分析任务中不可缺少的模型结构。在医学影像配准任务中, VoxelMorph[71,72]
22
使用U-Net作为变形场计算的基本框架,其结构如图2.5所示。
图2. 5 VoxelMorph网络模型结构示意
图2.5展示了经典的非线性的无监督配准模型VoxelMorph。其中每个模块表 示每层输出的特征图的通道,模块内数字表示每层输出的特征图的通道数。 VoxelMorph将固定影像与浮动影像拼接为一个双通道的影像输入到U-Net模型 中,利用 U-Net 提取两幅影像间的空间对应关系,建模两幅影像间体素的关联, 最后通过输出三通道的变形场。
CNN 的卷积操作虽然改善了传统神经网络中全连接所带来的大参数量以及 高运算复杂度的问题,但是在实际应用中,卷积的固定感受野范围限制了神经网 络模型的建模能力[121]。尽管 U-Net 在模型结构上,利用多尺度的形式增大了感 受野的范围,但是对于医学影像来说,更大的感受野能够更强的建模远距离上对 应解剖结构的空间关系,对于模型理解医学影像上的空间语义信息至关重要。
2.4Transformer 相关知识
在基于深度学习的NLP技术早期发展阶段,使用word2vec[122]建立词向量 (word embedding),这种模型充分建模上下文相关性。由于上下文信息在NLP中 至关重要(因为根据上下文的信息不同,一个词在语句中的含义不同),要求模 型能够对长距的词信息进行建模,因此学者们提出了 Transformer^模型,用于 建模长距离的词信息关系,全局的分析句子中词的含义。Transformer 一经提出, 由于其强大的建模能力以及其丰富的预训练模型,使其在自然语言处理领域内被 广泛的应用,同时也激发了学者们在计算机视觉领域内使用Transformer的尝试。
本节基于最近的研究,分别介绍 Transformer 在计算机视觉领域中的理论,及其 变体 Swin Transformer 的理论。
2.4.1标准 Vision Transformer
受益于 Transformer 在自然语言处理领域内的巨大成功[123], Transformer 也 在计算机视觉领域内快速发展,并且取得与CNN相比更有竞争力的结果[124-127]。 文献[128]首先在图像识别中引入了 Transformer,并介绍了 Transformer在图像建 模中的应用方式。此后,计算机视觉中的Transformer也被称为Vision Transformer
(ViT)。
图2.6展示了 ViT的模型结构。在标准的Transformer中,建模的对象是"词" (token),即一个单词。在图像建模中,如果直接将像素作为词去使用Transformer 模型的话,由于本身Transformer模型参数量大,结合图像所表示的“图像语句” 所含的“词”量巨大,因此是不实际的。所以,在ViT中,一个图像按照16X16 的大小被拆分为“补丁”(patch)序列。具体来说,图像被划分为多个补丁,每 个补丁包含的像素为16X16个。其中,每个补丁即为图像中的词,将词向量送入 Transformer即完成一个图像的建模。由于Transformer中使用全连接的方式对每 个词的全局关系建模,因此无法识别图像中的空间信息,即模型无法“记得”每
24
个词在图像中的位置。为此,ViT中为每个“词”加入了对应的位置编码(Positional Embedding),使Transformer在建模图像特征时,能够“记住”每个“词”在图 像中的空间信息,提升Transformer对图像特征的空间信息的理解。
Transformer中最重要的模块是多头注意力机制(Multihead Self-Attention,
MSA)。多头注意力机制的计算方式具体如图2.7所示。 全连接
拼接
设定的头数目I ] 丿
/了缩放的点乘注意力
拆分 拆分 拆分
t
全连接 全连接 全连接
Q K V
图2. 7多头注意力机制
图2.7中所示,一个由词构成的向量,首先被线性映射(Linear Projection, 使用全连接操作)投影为三个并行的词向量,分别为 Q(Query), K(Key), V (Value)三个子向量。然后通过将Q, K, V拆分,对H组词向量进行H个点 乘注意力运算,从而实现多头的计算。多头注意力机制的计算如公式(2.18)所示:
(2.18)
式中,dk为输入多头注意力机制中K的维度。在公式(2.18),使用Q, K做点乘 计算之后,利用Softmax函数即可得到每个词特征的注意力值构成的向量。将该 向量与V相乘,即完成一次输入向量的自注意力运算。在Transformer中使用多 头的目的是为了更好的完成向量在模型中的并行计算,加速模型训练,同时减少 模型的参数量。
在基于Transformer的医学影像配准模型[89,90,92,129]中,虽然Transformer理论
上增大了模型的能够感知的特征范围,但是由于其自身庞大的参数量及高运算复 杂度,基于U形结构的网络模型在使用Transformer时,都会在使用方式上做一 些取舍,这些取舍的利用 Transformer 的方式会影响其在模型中的建模能力,同 时又增加了配准模型的参数量及模型复杂度。
2.4.2Swin Transformer 相关知识
标准的Transformer在引入视觉任务之初,虽然将16x16个像素作为图像的 一个词,有效的减少了输入到Transformer中的向量尺寸,使Transformer能够应 用到图像任务中,但是基于全连接的Transformer仍然具有极大的参数量以及运 算复杂度高的问题,并且 Transformer 无法胜任多尺度图像任务。此外,这种对 图像进行全局注意力计算的方式,对于模型理解图像来说是否冗余也未曾可知。 因此,基于移动窗口的Swin (Shifted window) Transformer^5]模型被提出,用于 解决 Transformer 在视觉任务中的上述问题。
Swin Transformer与标准Transformer不同的是,它将注意力局限在固定的窗 口范围之内, 对窗口范围内的图像特征进行注意力计算。 具体来讲, Swin Transformer 中的窗口划分方式按照既定的方式,将输入的特征图按照设定的窗 口大小进行划分,然后将划分后的特征图在 batch 维度上进行堆叠,从而减少 Transformer中模型的参数量。设一个3D的特征图维度为(d,h,w,C),其中d , h , w分别为特征图的厚度、高度和宽度,C为特征图的通道数。标准Transformer 与 Swin Transformer 的多头注意机制的模型复杂度如公式(2.19)与(2.20)所示:
Q(MSA) = 4dhwC2 + 2(dhw)2 C (2.19)
Q(W-MSA) = 4dhwC2 + 2M 2dhwC, (2.20)
其中,MSA为标准Transformer中的多头注意力机制,W-MSA是基于移动 窗口的多头注意力机制, M 为设定的窗口大小。通过上述公式可以看出, Swin Transformer的参数量远小于标准Transformer的参数量。
Swin Transformer将注意力局限于窗口内的同时,需要关注窗口间的信息交 互,构建窗口间的信息关联,因此Swin Transformer以移动窗口的方式来构建此 关联性。具体做法是,在两个相邻的Swin Transformer模块中,第一个以标准窗
26
口划分方式划分窗口,然后输入到 Transformer 中去建模;第二个则按照循环移 动(Cyclic Shifed)的方式划分窗口,然后输入到Transformer中去建模,以此来实 现两个Swin Transformer间的窗口交互。两个相邻的Swin Transformer模块的建 模方式如公式所示:
Z1 = W-MSA (LN ( z_ )) + z_
z1 = MLP| LN(Z[] + Z'
Z1+1 = SW-MSA ( LN ( z1)) + z1
z1+1 = MLP [ LN (zl+Jj + z1+1
式中,l为在同一层中Swin Transformer的编号,z为每层输出特征,LN为
图2.8中,移动窗口首先将特征图划分为指定窗口大小,然后按照从左上到 右下的方式将窗口移动到[_2/M」位置,然后将窗口范围内的左边及上边特征移 动到特征图的底部及右侧,在使用Transformer对该划分后的窗口特征建模之后, 使用反划分,将特征图还原到与原特征图一致的形式。
在同一层的相邻两个Swin Transformer虽然能够建立窗口间的特征关联,但 是这种固定的方式能否全局的感知特征间的关系未知。此外,这种固定的窗口注 意力设计模式在权衡参数量以及模型复杂度的同时,忽略了 Transformer在建模
特征时,特征间内在的动态关联。
2.5本章小结
在本章中,首先介绍了医学影像配准的问题定义以及医学影像配准的基本理 论知识。根据预测结果的形式分别介绍了线性配准与非线性配准两大类。随后, 介绍了医学影像配准中常用的相似性度量计算公式以及对配准质量的评价指标。 其次,介绍了卷积神经网络的优势以及特点,介绍了 U-Net网络模型与基于U- Net的经典非线性配准模型VoxelMorpho最后介绍了 Transformer模型与原理以 及在CV任务中的应用方式,并且介绍了针对CV任务设计的Swin Transformer 模型的原理。对于卷积神经网络与Transformer存在的问题,本文也进行了部分 的阐述。
28
第 3 章 分支编码及折叠校正的孪生无监督图像配准模型
3.1引言
图像配准是许多医学图像分析任务的基础和关键研究。作为医学图像配准任 务的一部分,可变形配准旨在构建从浮动图像到固定图像(也称为运动图像和固 定图像)的密集非线性变换,以表示由患者运动、器官运动和疾病发展等因素引 起的图像解剖形状的变化。例如,可变形配准使研究人员能够纵向比较患者的器 官解剖结构随时间的演变,或横向比较患病个体和正常个体之间的器官差异,这 对于理解疾病的发展或是解剖结构的演变至关重要。
近年来,随着深度学习技术的快速发展以及其体现出的优越性能,深度学习 技术已广泛应用于各种医学影像分析任务中,并在许多医学影像应用中取得了显 著的成功。特别是在配准方面,已经证明了基于无监督深度学习的方法可以在没 有真实信息的情况下实现了更快的配准速度。这些方法通常利用卷积神经网络从 一对图像估计变形场。然后利用空间变换网络通过变形场将一个图像插值到另一 个图像的空间坐标下。就解剖结构的分割图的平均相似性指标而言,它们与传统 方法结果近似,并且大幅缩短了变形场预测的时间。
由于大多数基于学习的配准方法使用类似U-Net的架构,在输入时将一对图 像拼接起来,作为其模型的一个双通道影像输入,因此在模型的每个分辨率阶段 中,对每个图像的特征进行了提前融合,导致配准模型忽略了每个图像中各自所 表达的独立的解剖结构的信息关联。对偶或称为双流的可变形配准的研究[93,130] 中指出,单独对输入图像对的每个图像进行建模,即充分的考虑图像中独立的语 义信息可以提高配准精度。
此外,一个配准模型不仅要预测高精度的变形场,也要在预测的同时保证变 形中一定的物理特性不发生改变。也就是说通过变形场将浮动图像变形到另一个 图像的空间坐标系时,变换后的图像应保留其原始解剖结构的拓扑属性,这意味 着变形场应该是平滑的,或是在变换中具有较少的折叠。大多数基于无监督学习 的配准方法对输出位移场的梯度施加全局正则化,以限制变形平滑。然而,全局 正则化将所有变形处于相同的平滑度假设中,这会导致建立解剖对应关系的过度
约束或约束不足的问题。虽然基于学习的固定速度场方法提供了微分同构变换, 以确保原有的拓扑特性来限制变形中的折叠,甚至将折叠数目减少至零。但是, 研究轮廓变化的器官的动态运动时,微分同胚的性质在非轮廓的区域外不是很重 要,即这些连续运动的方式不重要,例如记录不同收缩周期的患者心脏的超声图 像。对于腹腔器官等需要不连续变换的边界映射才能准确对齐这些器官[131]。在 全局采用微同胚的变形方法需要考虑全局的变换性质,因此在配准性能上会有一 些下降。尽管基于位移场的方法能够产生不连续变换,但它们也难以解决在边界 上的关键变形中存在折叠的问题。
为解决以上问题,本章基于深度学习的可变形配准算法进行进一步的深入研 究,以实现快速、高性能的2D心脏超声图像以及3D大脑MR影像配准。本章 使用全卷积神经网络构建一个 U 型配准模型,端到端的预测影像对之间的变形 场。在预测出变形场后,该配准模型也考虑了逆变形场的生成,满足变形过程中 的可逆性。本章工作创新点如下:
(1)为了充分考虑影像对中每一个影像内独立的解剖信息,同时在有效的 表达两幅影像的空间对应关系时,使模型在提取影像对特征时充分利用影像对中 各自的空间语义信息,提升无监督可变形配准模型的性能,本章提出一种分支编 码的U型模型。
(2)为了减少变形场中的折叠,并尽可能保证配准的准确性,本章将图像 配准任务分为两个子问题。第一个是使用全局和粗正则化函数计算的高精度位移 场;第二个是使用校正模型找到折叠处并将其纠正,目的是减少预测的变形场中 折叠数目。本章针对第二个子问题,提出了一种端到端的折叠校正模块,该模块 能够有效减少输出变形场中存在的折叠,并且在校正后相比于全局正则化,不会 损失太多的配准精度。
3.2无监督的可变形配准网络模型
本章中将变形配准分为两个子问题,分别提出两个模型来配准输入的图像对 实现由粗到细的配准方式。第一个网络模型为分支编码网络模型(Separate Encoding Network, SEN),初步的预测变形场,该变形场内包含一定量的折叠。 第二个网络模型为折叠校正模块(Folding Correction Block),该模型用于校正
30
SEN输出的变形场,减少SEN中的折叠,实现精细调整变形场的目的。本章SEN 以及FCB的各自流程图与关联如图3.1所示。
3.2.1分支编码的初步配准模型
本章中定义浮动图像为X固定图像为Yo利用分支编码的配准模型SEN生 成变形场0,利用该变形场将浮动图像扭曲到固定图像的空间坐标系。为满足变 形场可逆的性质,本章使用无监督的方式训练模型G°(X,Y) = (0XY0YX))。其中G 为SEN网络模型,0X)为x到Y的变形场,00为Y到X的变形场,0为模型 SEN 的权重,该权重通过无监督的模式训练得到。
本章中的无监督可变形配准网络SEN基本流程如图3.1的Registration Phase 所示,以3D的大脑MR影像为例,待配准影像X与固定图像Y输入到配准网络 SEN中,SEN经过变形场合成运算输出正向变形场0X)与逆变形场00)。图中的 彩色图即为三通道的变形场以RGB形式的展示。其中,为保证逆变形场的存在, 本章利用文献[77]中的变形场合成运算,使用公式(3.1)以及公式(3.2)来合成正、逆
向变形场姐以及姫。
槻十(-姫) (3.1)
姙"XY (-媳) (3.2)
其中,姫,堆分别为SEN内输出的变形场。通过利用空间变换网络STN 分别对X施加变形操作。,通过此),使X扭曲为变形后的图像X。能;对Y施 加变形操作。,通过媳,使Y扭曲为变形后的图像Y。鹼。因此,模型SEN也 可以表述为Ge(X, Y) = (-櫃),媳(-0XY)))。最后,通过优化由X与X 心、 Y与Y我X构成的配准损失函数匚邃来更新配准模型SEN的权重0。
图 3.1 展示了本章工作的具体过程。其中,分支编码器 SEN 模型用于预测 未经校正的初步变形场。SEN模型的整体架构如图3.2所示:
图3.2中,可变形配准模型SEN是由一个具有跳接的五级分层的编码器-解 码器构成的模型,其结构类似于标准的U-Net。与将浮动图像X和固定图像Y拼 接为单个2通道输入的标准U形模型卩4"78,89]不同,所提出的分支编码神经网络 SEN在编码器中有三个建模分支。第一个分支提取X的特征图,第二个分支提 取Y的特征图,第三个分支提取每个拼接后的XY的特征图,即在每一层中建模 XY融合后的特征信息,建立XY高维的空间关联。SEN在每个分辨率阶段拼接
32
这三个分支的特征图,然后将这些特征信息融合建模,并将该融合后特征映射到 下一个分辨率级别的编码器模块中作为第三个分支的输入。编码器中的卷积模块 由卷积核大小为3的、步幅为1的卷积组成,然后连接一个线性激活层(ReLU)。 该卷积与激活层构成的模块用于计算每个分辨率阶段内尺度不变的特征图。使用 卷积核大小为 3、步幅为 2的卷积,连接一个线性激活层,将特征图下采样为当 前尺寸的 1/2。重复以上的操作,直到编码器输出的特征图到达最低分辨率阶段 (输入图像分辨率的 1/32 阶段)。在解码器中的每个分辨率阶段,使用卷积核 大小为 3,步幅为 1 的卷积,连接一个线性激活层和一个卷积核大小为 2、步长 为 2的反卷积,将特征图上采样到其大小的两倍,然后通过跳接将这些特征与对 应分辨率阶中,编码器输出的段的特征图连接起来。为生成正、逆两个方向的变 形场,分别使用两个卷积核大小为 3、步幅为 1 的卷积,对输出的 16 通道特征 图进行维度缩减,从而得到两个方向的变形场。对于生成的变形场,本章中使用 Softsign激活层将变形场的取值范围限定为[-1, 1],使用常数c来限制最大位移 场的范围,即最大位移场为[-C, c]o
3.2.2折叠校正模块
由于一般配准模型在输出变形场之后没有考虑折叠对变形的实际拓扑性质 的保留,同时对轮廓的变形也不适合使用微分同胚的变换的问题。本节提出了折 叠校正模块FCB,用来校正模型中非必要的折叠。如图3.1所示,FCB基于半监 督的方式训练模型爲,(0⑴)=A。其中,F为模型FCB, 0为FCB的权重,A为 校正因子。使用 SEN 输出的变形场作为输入数据,最后输出校正因子用来校正 输入变形场中的折叠。提出的折叠校正模块如图3.3所示。
图3.3分支编码器配准网络SEN和折叠校正模块FCB流程图
图 3.3 中,提出的 FCB 首先由两个卷积核分别为 3 和 5的卷积构成,其步 幅为 2,用于下采样变形场到原分辨率阶段的 1/2。使用两个不同大小的卷积核 目的是为了使FCB能够感知不同范围内的折叠。之后,使用卷积核大小为3,步 幅为 1 的卷积,在不改变分辨率尺度的情况下逐步提取高维特征。除最后一层除 外,每个卷积核都与ReLU激活层连接。使用卷积核大小为2,步幅为2的反卷 积层将1/2分辨率特征上采样为原始输入位移场形状。直到最后一层输出校正因 子A。
FCB 的校正过程为:当提出的 SEN 训练完成后,其模型权重被冻结,然后 通过训练后的 SEN 输出训练集中每对图像位移场。位移场输入到 SEN 之后, FCB输出预测的校正因子△。使用该预测的校正因子△,结和位移场的最大位移 c,利用/二cX0⑴-△得到矫正后的位移场旷,用来减少输入位移场中的折叠。 校正公式表明FCB输出的校正因子△包含折叠的位置信息以及所需校正的位移 场大小。
为更好的解释FCB的作用,本节中以大脑的MR影像为例,在图3.4中展 示经过校正后的大脑MR位移场。图中,A、B、C、D为四个变形中产生折叠的 位置。在大脑MR位移场粗略的可视化中,红框表示含有折叠的区域,将该位置 放大之后,可以观察到折叠的具体情况。经过校正,可以将位移场中的折叠校正 为平滑形式。
图3.4 一个粗位移场经过FCB校正后的例子
34
3.2.3损失函数设置
本章采用的配准损失函数形式为Qeg = Gm (•) + Cmo(J来训练模型的权重。
£”eg分为相似性损失函数(•)和平滑正则化损失函数Cmo(J。这两个损失函数 中的每一个都是成对的,都由双向损失组成。本章使用归一化互相关(NCC)和 均方误差(MSE)作为相似性损失函数来衡量变形后的浮动图像和固定图像之间 的相似性。为了度量变形后的X和Y、变形后的Y和X之间的相似性,相似性损 失函数如公式(3.3)所示:
Gm(X, Y) = % (X °0XY,Y) + Cm, (Y 0 X) (3.3)
其中,X°0XY与Y°00)分别为利用位移场0X)与00)变形后的浮动图像X、Y。
% 与匚叫分别为正向相似度损失函数与逆向相似度损失函数。需要注意的是, 当待配准图像为3D时,本章使用的相似度函数为NCC;当待配准的图像为2D 时,本章使用的相似度函数为MSE。该相似度函数表明,本章所提出的配准方法 不仅关注正向的变形场相似性,也同样关注合成后的逆向变形场的相似性,使训 练后的模型满足可逆性。
对于平滑正则项,本章中使用L2正则化损失函数来强制执行变形场的粗平 滑度,该函数使用位移场上相邻位置的差异来表示的空间梯度作为惩罚。因此 Csmo (•)可以定义为如公式(3.4)所示:
匚smo 鹅0 = E(||grad(00))『+|| grad(00))『) (了4)
运I
其中,grad(0X))与grad(0#)分别表示正、逆向两个位移场的梯度,当待配 准图像为3D时,I = {0,1,2},即表明计算位移场三个方梯度正则之和;当待配准 图像为2D时,I = {0,1},表明计算位移场两个方向梯度正则之和。最后,本章 中使用的配准损失函数如公式(3.5)所示:
Geg (X, Y) = % (X, Y) + Msmo (0XY,0X) (3.5)
其中,人为超参数。该参数的作用为调节变形中相似度与平滑度在模型学习 权重中的作用。
此外,本章提出了一个折叠校正损失函数Gfc = Gm3(J + Gjdet (•) + Genc (•)由三个 项组成,包括位移场相似性损失Gm3(J,雅可比行列式正则化损失GJdet和激励正 则化损失Genc (•)。在本章中,Gm3(J是一个MSE相似性函数,用于度量0和0⑴ 之间的相似性。Gs叫(•)如公式(3.6)所示:
Gm,(0 ⑴0) = MSE0 ⑴,0) (3.6)
其中,0(1)是输入的位移场,0是经过矫正之后的位移场。该式的目的是使 经过校正后的位移场与初始位移场相似。
本章在提出的折叠校正损失函数中使用了第二项的雅可比行列式,因为当位
移场平滑时它的值是非正的。对于3D图像来说,使用公式(2.17)来表示和量化变 形场中的折叠,其重新定义如公式(3.7)所示:
为了测量变形场中折叠区域的程度,使用(3.7)的雅可比行列式正则化并给出 了一个平滑的公式,该平滑的公式计算位移场中位置 p 的位移的雅克比行列式 值。基于雅可比行列式的正则化如公式(3.8)所示:
1N
Gjdet = ln(-工 ReLU(-| J/(p)|)) (3.8)
Np
其中,使用ReLU线性激活的目的是为了保留表示折叠的值,表示非折叠的 值被置为0o为了平衡Gm3(J和Gjdet的在模型中的贡献,本章在的空间梯度上使 用变体L2正则化来激励位移场的变化。Genc(•)的定义如公式(3.9)所示:
Genc = In 工(||grad(0⑴)『) (3.9)
运I
£中的损失函数Gjdet (•)与Genc (•)强制对位移场0)中具有负雅可比行列式的 局部区域进行调整。相反,具有正雅可比行列式值的局部区域将不会得到校正。
36
这种调整是在校正后的变形场旷与原始变形场0⑴相似的前提下进行的。也就是 说,调整后的局部区域变形场保持了邻域变形的方向和大小的约束。本章用超参 数入与超参数入来调节各项在损失函数中的作用。最后,Cfc可以表示为 5 = Gm + UCjdet + 入匚enc。
3.3实验评估与分析
3.3.1实验数据及数据预处理
本章使用的数据集包括两个:
第一个数据集是 EchoNet-Dynamic 数据集[132]。该数据集由超声心动视频和 每个受试者左心室的专家手动标注组成。预处理时,在每个视频中选择了 1276 个代表收缩末期和舒张末期两个不同时间的图像。其中,实验使用舒张末期图像 作为X,收缩末期图像作为Yo所选图像对随机分为920个用于训练、100个用 于验证以及256个用于测试,以评估每种方法的性能。
第二个数据集是大脑的MR影像数据集OASIS[133],作为对比方法与所提出 模型的3D实验数据集。它由来自416名年龄在18至96岁之间受试者的T1加 权核磁共振扫描的横截面影像组成。这些形状大小为256x256x256、原始分辨 率为1x1x1mm3的MR影像使用FreeSufer[134]进行预处理,处理包括仿射变换、 颅骨剥离、中心剪裁等操作。处理后得到大小为160x224x192的影像。由于GPU 内存限制,本节将这些影像重新采样为96x112x96大小。本节实验从数据集中随 机选择 270 个 MR 影像,将该影像集分为 200 张用于训练, 34 张用于验证, 36 张用于测试。在实验中,从验证集和测试集中随机选择4个和6个MR影像作为 固定影像,其余的是浮动影像。实验对每个浮动影像与固定影像进行配准,执行 全排列的配准任务,即训练时两幅图像一一配对。为了与其他方法进行比较,在 对比实验中,每个对比方法中均使用X作为固定影像,Y作为浮动影像来重新训 练每种方法。本章中在测试时,为每种方法都执行 180 对固定/浮动影像对的变 形配准。
3.3.2实验的评价指标设置
由于真实非线性变形场难以获得,实验使用 Dice 相似度系数度量和雅可比 行列式来评估对比算法与本章提出的方法。实验中首先将每个浮动影像变换到每 个固定图像的空间坐标系上,实现浮动影像到固定影像的变形配准。然后,使用 与每个浮动影像相对应的分割图进行非线性变换,使浮动影像的分割图变换到固 定影像分割图的空间坐标系上。对于浮动影像,实验中使用双线性插值利用变形 场将浮动图像变形。对于浮动影像的分割图,使用最邻近插值来变形分割图。Dice 相似度系数用来计算分割标签中每个分割图与目标对应分割图的面积重叠百分 比。Dice值越高表明分割图的重合度越高,表明方法的配准精度越高-|Jj< 0计 算位移场中雅克比行列式小于零的位置数目,及变形产生的折叠数量。。J^< 0的 值越低表明预测结果中折叠越少。
3.3.3对比方法简介及本章算法实现
本章将提出的方法与三种基于无监督深度学习的可变形配准方法进行了比 较。第一和第二种对比的模型分别是VoxelMorph[7((VM)与Vit-V-Net[8(( VVN), 它们都直接预测位移场,然后利用全局正则化来限制位移场平滑。 VM 使用 U- Net作为基础模型并直接输出位移场。VVN是一种基于Transformer的模型,它 在基于深度学习的可变形配准方法中首次引入了 Transformer。第三个对比方法 是SYMNet[77] (SN),它预测微分同胚的变形场。对于这些方法,本章中使用它 们的官方实现。本章在实验数据集上重新训练了 VM, VN和SN,并遵循这些文 献[72,77,89]中的默认参数设置。所提出的方法基于PyTorch[135]实现。本方法中采用 Adam[136]优化器训练对比模型和提出的方法。对于提出的SEN和FCB,训练时 将学习率设置为0.0001 o使用RTX 3080 GPU训练所提出的方法和对比方法。需 要指出的是,本文首先训练提出的SEN,然后冻结SEN的参数以计算每个图像 对之间的位移场,最后,FCB使用这些位移场来学习其模型的权重。以下提到的 所有FCB都是根据SEN预测进行训练的。对于不同的数据集,人、人和入具有 不同的设置,具体设置在3.3.4和3.3.5小节的实验结果中。
38
3.3.4心脏数据集上的实验结果与分析
本章所提出的无监督变形配准模型SEN,与半监督的折叠校正模型FCB构 成的孪生网络模型被称为SEN+FCBo为验证提出的SEN+FCB性能,首先在心 脏数据集上进行对比实验。该实验的目的是对收缩末期和舒张末期的心脏超声图 像训练一个变形配准模型,使模型预测心脏超声影像在两个阶段的变形模式。
首先,本节对SEN+FCB的配准前的图像及配准后的位移场与图像进行可视
化,配准前后的结果如图 3.5 所示:
图3.5 SEN+FCB在2D心脏超声配准结果中一个切片示例。(a)为固定图像,是 心脏超声图像的收缩末期图像;(b)为浮动图像,是心脏超声图像的舒张末期 图像;(c)是利用未经校正的位移场配准后的图像;(d)是未经过FCB处理的 位移场;(e)为经过校正后的位移场;f)是利用经过FCB校正后的变形场配 准的图像;(g)是最终配准后的图像与固定图像的差异热图。
对比实验中评估了基于位移场的方法VM和VVN。VM的全局正则化参数 在&= 0.04时取得最好的结果。VVN的全局正则化参数为= 0.04时取得最好 的配准性能。SEN+FCB的超参数设置分别为人=0.05 ,入=40 ,入=-1。实验 中使用MSE作为心脏超声图像上的相似度损失函数。对比算法VM、VVN以及 本章提出SEN+FCB进行160000次迭代训练。表3.1 (a)显示了 256个心脏超 声图像对的配准结果。表中的“Affine Only”表示图像对没有经过配准时的Dice 指标。通过此表可以观察到,与Dice指标最优时的VM (人二0.04)、VVN (= 0.04)结果相对比,本章中提出的方法中,单独的SEN方法在平均Dice指 标上优于其他两种对比方法的结果,表明所提出的 SEN 的配准性能优于对比方 法。所提出的SEN+FCB模型,在Dice指标上仍然高于VM以及VVN方法。在 VM和VVN的Dice指标最优时,对比非正| J0的指标时,SEN+FCB仍然优于 VM 和 VVN 的结果。
为了说明 FCB 校正优于全局正则化,能够校正位移场并使其更加平滑,即 FCB 校正后的位移场含有更少的折叠,在本节中使用 FCB 分别校正使用超参 A = 0.04训练的VM以及VVN。使用训练后的FCB对上述的VM及VVN输出 的变形场进行校正后,将校正结果与超参为A = 0.05训练的VM和VVN输出的 变形场进行对比。选择A = 0.05训练的模型进行对比,是因为在VM与VVN中 的损失函数中表明,使用越大的超参数设置,输出的位移场越平滑,位移场中的 折叠越少。表3.1 (b)显示了全局正则化和校正结果。值得注意的是,使用FCB 校正后,VM和VVN的Dice指标得到提升,并且非正|J0的值会显著降低。这 表明使用FCB进行校正比使用全局正则化使位移场平滑更为有效。
表3.1 在心脏超声数据集上的对比结果
Method Dice (%) J0 < 0
(a)
(b)
将对比范围扩大到涵盖VM (& = 0.05)与VVN (人=0.05)时,与VM和VVN 的结果相比,SEN和SEN+FCB实现了最佳的Dice指标。在平均非正|J0|指标 上,VM的结果略高于SEN+FCBo比较所有三种方法在非正| J0|指标上的标准差, SEN+FCB 是所有方法中最低的,这表明此方法在预测变形场方面具有更高的鲁 棒性。本节中所使用到的对比方法在心脏超声图像上的预测变形场和配准后的图 像例子如图 3.8 所示。
3.3.5大脑数据集上的实验结果与分析
本节在3D大脑MR影像上评估了 VM、VVN、SN和提出的SEN+FCB方 法。对于VM、SN和SEN,为了公平的对比这些方法的性能,本节依据文献[71,77] 使用NCC作为损失函数。在实验中发现,当VM使用平滑正则项超参数& = 3 时进行训练可以得到最优的Dice指标。在此3D大脑数据集上使用& = 0.02训练 VVN时,Dice指标最高。本节中使用文献[77呻推荐的超参数设置来训练SNo SN使用带有超参数人的显式雅可比损失来实现折叠惩罚。SN默认的超参数 入=(0,1000)。本节中调整超参数人=2以粗训练SEN模型以获得最高的Dice指 标。对于大脑MR数据集,本节中分别设置入=50000和& =-0.01训练FCB模 型。图3.6中展示了本章提出方法在3D大脑MR影像上配准的一个例子。
表3.2 (a)表示对比实验与本章提出的SEN+FCB在3D大脑MR影像数据 集上的实验结果。通过对比发现,对于SN,当显式雅可比损失项的超参数&发 生变化(即0 — 1000)时,Dice指标下降太多,而折叠数量减少的不够明显, 这也是促使本章提出利用平滑雅可比损失项来训练折叠校正块的原因。与 3.3.4 节进行的对比一样,在每个方法取得最优的Dice指标时,单个SEN模型在Dice 指标上取得了最优的结果,结果优于与其他方法1-2%。所提出的SEN+FCB在 Dice指标上取得了最优的结果,结果优于与其他方法1-2%o所提出的SEN+FCB 在Dice和非正| J0上都优于其他方法。与对比实验中性能最优的VVN进行对比,
图3.6 SEN+FCB在3D大脑MR影像配准结果中的一个切片示例。(a)为固定图 像,是心脏超声图像的收缩末期图像;(b)为浮动图像,是心脏超声图像的舒 张末期图像;(c)是利用未经校正的位移场配准后的图像;(d)是未经过 FCB处理的位移场;(e)为经过校正后的位移场;f)是利用经过FCB校正 后的变形场配准的图像;(g)是最终配准后的图像与固定图像的差异热图。
当调整VVN的超参A = 0.05时,使VVN的模型预测的位移场中的折叠数量与 SEN+FCB预测的位移场数量近似,可以发现VVN的Dice指标下降比SEN+FCB 的Dice指标下降要多,同时,SEN+FCB的非正|少于VVN。由于大脑中分割 图较多,本节以箱线图(图3.6)展示了每种解剖结构分割图的实验结果比较。
表3.2 (b)显示了 FCB校正VM、VVN和SN三种方法预测位移场中的折 叠。结果表明,FCB有效减少了非正|的数量,同时,相比于全局平滑正则化, 牺牲的配准准确性更少。使用FCB时,VM、VVN和SEN,预测的位移场中的 发生折叠的数量减少了近85-90%; SN预测的位移场中折叠的数量减少了 65%o SN+FCB的结果证明,使用雅可比损失项的训练的校正模型,其性能优于具有显 式雅可比损失项的单个网络模型。与心脏数据集的实验结果相比,Dice指标在使 用 FCB 校正后有所减少,因为每个用于评估的受试者的解剖学标签数量不同, 即每个超声心脏图像只有一个分割图,每个大脑MR影像则有36个分割图。总 体而言,与全局正则项以及显示雅克比损失项相比,FCB可以更有效地校正位移 场,并保持良好的配准精度。图3.8中给出了每种方法配准的3D大脑MR影像 42
和模型输出的变形场的切片例子。
Method Dice (%) J $ 0
Affine Only 56.51 ± 6.32 -
VM[72] (&1=3) 72.24 ± 3.00 1066.22 ± 800.86
VM[72] (&1=5) 71.74 ± 3.25 212.66 ± 243.01
VVN[89] (&1 =0.02) 73.00 ± 2.65 1636.18 ± 712.95
(a) VVN[89] (&1 =0.05) 72.43 ± 2.75 228.641 ± 137.66
SN[77] (&o =0) 71.92 ± 2.81 1038.65 ± 270.93
SN[77] (&o =1000) 71.51 ± 2.87 993.62 ± 247.62
SEN 73.32 ± 2.65 1069.94 ± 227.81
SEN + FCB 72.80 ± 2.83 155.39 ± 69.10
VM[72] (&1=3) + FCB 71.74 ± 3.06 98.90 ± 108.68
(b) VVN[89] (&1 =0.02) + FCB 72.46 ± 2.68 251.48 ± 147.64
SN[77] (&o =0) + FCB 71.70 ± 2.80 341.33 ± 138.47
图3. 7在3D大脑MR影像上的对比实验结果
此外,本章对比实验中每个分割图在Dice指标上的结果进行了统计。由于 大脑中分割图较多,为了方便展示在每个解剖结构标签上的各个统计结果(包含 最大最小值、中位数等) ,图3.7中展示了每种解剖结构分割图的实验比较结果 构成的箱线图。该箱线图将36个大脑分割标签中,左右脑相对应的分割标签的 结果取平均值,最后得到的19个分割标签的结果。本章中统计19个分割标签的 名称为:Brain Stem (BS), Thalamus (Th), Cerebellum Cortex (CblmC), Putamen (Pu),Pallidum (Pa),Cerebral White Matter (CeblWM),Lateral Ventricle (LV),Ventral
DC (VDC), Cerebellum White Matter (CblmWM), 3rd Ventricle (3V), Caudate (Ca), Amygdala (Am), Hippocampus (Hi), Caudate (Ca), Hippocampus (Hi), 4th Ventricle (4V), Accumbens (Ac), Cerebral Cortex (CeblC), Choroid Plexus (CP), Inf-Lat- Ventricle (ILV),以及Vessel (Ve)。图3.7中可以看到SEN在15个分割图上的性 能超过了对比方法VM、VVN和SNo SEN+FCB在14个分割图像的性能超过了 对比方法。除使用箱线图外,本章还对所有测试集上的不同分割图的结果进行统 计,最后将测试集中每个分割图的平均结果记录于表3.3 中。
3.3.6运行时间分析
本章实验使用 NVIDIA RTX 3080 GPU 在大脑 MR 影像数据上进行可变形 配准的训练预测,统计了 VM, VVN, SN, SEN和SEN+FCB的完成一对影像 配准所需要的执行时间。图3.9显示了 SEN+FCB和对比方法的配准一对影像所 需要的平均运行时间。结果表明,SEN+FCB比VM、VVN和SN三个方法配准 一对影像所花费的时间都要少。值得注意的是,使用 FCB 校正位移场中的折叠 并不会显著增加配准一对影像的运行时间。
44
结构名称 VM VVN SN SEN SEN+FCB
Left-CeblWM 80.98 81.95 80.34 82.02 79.90
Left-CeblC 65.90 67.65 65.42 67.21 64.95
Left-LV 82.10 84.55 82.25 83.60 82.15
Left-ILV 35.02 35.15 32.19 35.50 34.79
Left-CblmWM 83.17 82.29 82.43 83.94 83.32
left-CblmC 85.64 86.13 85.79 86.76 86.23
left-Th 87.79 88.36 88.04 88.36 88.35
Left-Ca 75.06 79.97 77.37 77.96 76.89
Left-Pu 84.08 83.57 83.24 84.28 84.38
Left-Pa 81.61 80.93 81.14 82.47 82.68
3V 77.92 78.95 77.67 78.64 78.28
4V 73.51 73.55 72.52 74.02 74.06
BS 89.46 89.07 88.86 89.32 89.37
Left-Hi 76.96 78.01 75.98 77.63 77.39
left-Am 76.46 76.36 76.82 77.71 77.74
Left-Ac 73.18 74.56 72.80 74.78 74.60
Left-VDC 81.50 81.47 81.54 81.90 81.86
Left-Ve 29.74 30.70 28.97 30.51 30.84
Left-CP 39.75 41.47 40.19 41.75 42.07
Right-CeblWM 81.02 82.03 80.61 82.16 79.97
Right-CeblC 65.56 67.50 65.38 67.10 64.71
Right-LV 79.43 82.20 80.05 80.96 79.74
Right-ILV 43.71 44.04 40.44 44.94 43.50
Right-CblmWM 82.96 82.03 82.71 83.91 83.40
Right-CblmC 85.68 86.08 85.89 86.88 86.40
Right-Th 88.47 88.85 88.34 89.16 88.87
Right-Ca 74.75 78.51 77.92 77.74 76.86
Right-Pu 84.46 83.81 83.44 84.51 84.38
Right-Pa 83.77 82.72 82.19 83.80 83.94
Right-Hi 77.44 78.57 76.63 78.44 78.25
Right-Am 77.65 77.29 77.88 78.83 78.89
Right-Ac 68.41 68.16 67.73 68.97 69.03
Right-VDC 82.27 81.81 81.80 82.55 82.50
Right-Ve 33.70 35.02 33.27 35.91 35.91
Right-CP 39.40 41.78 39.40 42.14 41.90
图3.8 实验结果中输出的变形场配准后图像与变形后的分割标签示例
3.3.7与对比方法的显著性检测
为验证提出的SEN+FCB的结果有显著提升,本章使用成对t检验分别在心 脏超声数据集和大脑数据及上进行统计分析。所检验对象分别为 SEN 与基于深 度学习的各方法最优结果的配对,以及SEN+FCB与基于深度学习的各方法最优 结果的配对。表3.4展示了经过统计分析之后的p值。
表3.4成对亡检验的q值结果
Cardiac Brain
VM VVN VM SYM VVN
SEN 3.13e-20 5.38e-6 1.94e-64 6.27e-95 1.41 e-8
SEN+FCB 1.21 e-21 4.98e-3 1.49e-17 1.96 e -36 1.59e -3
在成对t检验中,若结果p值小于0.05说明结果有显著性改进。通过该表可 以发现,SEN、SEN+FCB的结果与所有基于深度学习的对比方法的结果,均取 得了显著性的改进。
3.3.8消融实验结果分析
为了证明提出的分支编码的网络模型设计的有效性,在本节删除了每个图像 的单独编码分支,只保留融合编码分支。然后,将每个分辨率阶段的融合编码分 支的通道数增加了一倍,以保持每个分辨率阶段中总的通道数不变。如图 3.2所 示,该网络去除了单独的编码分支后,模型退化为普通的 U-Net 模型,表示为 SEN-1。将SEN-1和SEN应用于2D心脏超声图像和3D大脑MR数据集上进行 评估。本节分别在心脏数超声据集上使用&二(0.01,0.05,0.1)、在大脑数据集上使 用人二(2,4)训练SEN和SEN-1o然后,利用模型输出的正向、逆向变形场配准 图像X和Y计算测试集图像对应的每个的分割图在配准后的平均Dice指标。 表3.5中展示了该消融实验的结果。可以观察到,SEN在所有超参数设置上的表 现始终优于SEN-1o这表明分支编码的模型设计是有效的,能够充分的考虑每个 影像内独立的解剖信息,有效的提升了模型精度。
表3.5 本章提出的方法的消融实验结果
Method Data 人 Dice (%) 川0
0.01 88.59 ± 3.85 275.15 ± 124.82
Cardiac 0.05 89.67 ± 4.96 48.84 ± 38.72
SEN-1 0.1 89.32 ± 4.24 13.20 ± 15.58
Brain 2 72.97 ± 2.69 1203.42 ± 230.91
4 72.48 ± 2.69 132.84 ± 38.69
0.01 88.82 ± 3.83 281.63 ± 126.37
Cardiac 0.05 89.84 ± 3.72 48.30 ± 39.00
SEN 0.1 89.71 ± 4.10 19.04 ± 21.43
Brain 2 73.24 ± 2.68 1082.90 ± 207.34
4 72.54 ± 2.90 149.53 ± 40.69
3.4本章小结
以往的基于深度学习的无监督变形配准模型在对图像对建模时,忽略了每个 图像内独立的解剖信息,直接对图像对的融合信息建模,导致模型配准性能受限。 此外,使用全局的平滑正则项虽然能够减少预测位移场中的折叠,但是,全局的 平滑约束导致了模型过约束或欠约束的问题,影响模型的配准精度。为了解决这 两个问题,本章提出了由两个子网组成的,基于深度学习的可变形图像配准的孪 生网络模型SEN+FCBo首先,提出了一种分支编码的无监督可变形配准模型SEN。 SEN 在每个分辨率阶段对图像分开提取特征,之后在同一分辨率阶段进行特征 的融合;随后,提出了一个半监督的折叠校正模块FCB。FCB学习位移场中折 叠的特征,用来校正位移场中的折叠,将位移场中的折叠变为平滑,保留原图像 配准后的拓扑属性。
为了验证提出的SEN及SEN+FCB模型的有效性,本文在2D心脏超声图像 和3D大脑MR影像上进行了对比实验。与基于深度学习的无监督可变形配准模 型VM、VVN、SN的实验结果表明,在心脏超声数据集以及大脑MR影像数据 集上,提出的SEN与SEN+FCB在Dice指标以及非正雅克比行列式上都取得最 好的结果。此外,将FCB应用于VM、VVN以及SN上的实验结果表明,FCB
48
同样能够校正其他方法预测的位移场中的折叠,并且经过校正之后的配准精度高 于使用全局平滑正则项的模型。在运行时间的统计上,SEN与SEN+FCB同时快 于对比算法,并且使用 FCB 不会增加大量的额外运行时间。最后的消融实验表 明,本章提出的分支编码的设计是有效的,能够充分的建模各图像内独立的解剖 信息,提升模型的配准精度。
第4章 基于Transformer的对称无监督图像配准模型
4.1引言
医学图像配准是许多医学图像分析任务中的基本和关键步骤。可变形医学图 像配准是一种医学图像配准,旨在建立一对图像之间的密集非线性对应关系。传 统的图像方法将图像配准表述为一个优化问题。最近,随着深度学习的快速发展, 卷积神经网络(Convolution Neural Network, CNN)早已被广泛应用,并在许多 视觉任务中[137-140]表现出优异的性能。与传统的医学图像配准方法相比,基于 CNN 的方法可以提高配准性能,并在 CNN 模型训练完成后更快地计算密集变 换。然而,由于卷积固有的局限性,即卷积核大小限制CNN模型的感受范围, 导致模型的在卷积核的一次滑动中,无法感知图像中的远程语义信息系。尽管已 经提出了许多方法来扩大基于CNN的模型局部感受野范围,但它们仍然受到卷 积核大小对图像内空间信息感知的限制。
在自然语言处理任务中表现出色的 Transformer 模型没有局部感受野的限制 得益于Transformer的非局部建模的能力,ViT[128]率先将Transformer应用于计算 机视觉领域中,它将图像视为一系列补丁(即将图像转换为“词”),ViT实现 了比当时先进的图像识别算法更好的性能,成功的将学者们的注意力转移到使用 Transformer解决视觉中的问题。学者们基于Transformer提出了许多模型或基于 Transformer 变体的方法,用于 CV 中对不同的任务建模,例如用于图像识别的 CvT[141]和风格迁移的 Styleformer[142]。
在医学图像配准任务中,基于CNN的模型更关注感受野内的信息,这会限 制基于CNN的模型在两个图像中建立相同解剖结构之间的对应关系的性能,特 别是相同的解剖结构相对距离很远时。例如腹腔内器官滑动,导致两幅医学图像 在同一位置上的解破信息难以对齐。受到ViT的启发,一些图像配准方法在其模 型中使用了 Transform er o Vit-V-Net[89]是第一个将Transformer应用于可变形医学 图像配准的模型。在这个研究中,ViT-V-Net取得了比基于CNN的无监督可变形 配准模型更好的性能。在 ViT-V-Net 之后,其他基于 Transformer 的图像配准模 型,例如DTN[93]和TransMorph[96]被相继提出。然而,由于3D影像数据像素相
比于普通图像多,以及Transformer本身模型就有大量的参数及模型复杂度,导 致在实际应用中需要使用大量GPU内存。目前学者们在基于Transformer的模型 中做出一些折中的处理[50],避免训练时GPU内存的限制,以实现应用Transformer 对3D医学图像进行建模。在医学图像分割领域中,例如,AFTer-Unet[50],使用 通用的 2D 编码器和解码器,然后在其模型底部提出的 Transformer 建模高维度 的图像特征信息。在AFTer-Unet模型的底部,Transformer对轴向切片之间的信 息进行建模,从而达到缩减GPU内存占用的目标。在医学图像配准中,DTN以 及ViT-V-Net也在其模型底部应用Transformer。然而,在模型底部应用Transformer 的这种折中的方式导致Transformer仅能获得最低分辨率的图像特征信息,从而 限制了 Transformer 在对医学图像建模的过程中缺少细粒度的语义信息。通常, 图像特征所含的信息越丰富,用于训练模型时越能提升模型的性能。如果 Transformer可以在更高的分辨率阶段使用,即如果Transformer可以获得更丰富 解剖信息以及语义信息,则可以进一步提高 Transformer 在可变形配准模型中的 贡献,从而提高可变形配准模型的性能。
此外,在有些可变形配准模型[90,96]中,虽然对在更高的分辨率阶段中使用 Transformer对医学图像的深层特征进行提取,但是这些U型结构的模型在解码 器中依然使用卷积层还原特征的分辨率。尽管在U型结构中使用跳接操作能够 纠正逐步提取深层特征时丢失的空间信息[143],但是非对称的模型结构(即基于 Transformer编码器-基于CNN的解码器结构)仍然会影响模型的配准性能。
为了解决以上问题,本章提出了一种由卷积层和Transformer模块组成的编 码器-解码器的模型,提出了基于卷积的高效多头自注意力机制(Convolutionalbased Efficient Multihead Self-Attention, CEMSA),其目的是捕获图像特征局部 和远程上下文信息。具体来说,利用深度可分离卷积模块和分组卷积来捕获局部 上下文特征,并且可以压缩Transformer的参数量及模型复杂度。本研究使用patch 扩展将解码器中上一个基于CEMSA的Transformer层的输出特征分辨率扩大两 倍,以构建对称的编码器-解码器网络结构。同时,使用跳接操作和patch合并操 作来融合同一分辨率阶段中编码器输出的特征与解码器输出的特征。基于这些模 块,本章构建了基于CEMSA的对称Transformer的可变形配准模型(Symmetric Transformer-based neural network, SymTrans)。此外,在 SymTrans 配准模型中
52
还引入了微分同胚的性质,构建了 diff-SymTrans 模型,用于获得具有微分同胚 性质的变形场。具体来说,本章研究内容的主要贡献点与创新点为:(1)提出 了一种高效的多头自注意力机制CEMSA,减少Transformer的参数数量与模型 复杂度,节省内存并捕获局部相关性;(2)提出了基于CEMSA的对称Transformer 模型;(3)提出基于位移场和微分同胚的配准SymTrans和diff-SymTrans。
4.2基于 Transformer 的无监督对称可变形配准模型
4.2.1基于卷积的高效自注意力模块
标准Transformer模块由两个部分构成:多头自注意机制模块(Multihead SelfAttention, MSA)和前馈模块(Feed Forward Network, FFN)。本章在 3D 空间 域中定义3D图像,Ou RD" , d, h, W分别为3D图像的深度、高度、宽 度。为使基于2D图像的Transformer模块适用于3D图像,首先将图像分成N个 图像块,然后展平为图像块的向量序列Ip u忆心。其中图像块的个数为:
N = (DxHxW)/P3,其中,P是每个图像块的大小。通常,卷积操作用于将输
入的图像拆分为没有重叠的图像块序列。获取图像块的序列之后,图像块序列将 在MSA中进行建模和自注意力的计算。MSA使用线性运算(全连接操作)将图 像块序列投影到Query、Key和Value (表示为Q、K和V)三个子向量。每个 线性投影集由k个头组成,这些头将dm维输入映射到dk维空间。基于全局关系 的序列的自注意力机制的计算如公式(4.1)所示:
(4.1)
FFN将MSA的输出序列投影到更高维(通常为4倍输入维度)的空间中, 然后再映射到序列的原始维度空间。至此,一个Transformer模块的构建完成。 通过上述的表示可知,基于线性投影的全连接包含大量的参数,并且,FFN中的 向更高维映射的操作更提升了模型的参数量,使模型复杂度增加,这是导致基于 Transformer的模型难以应用在医学图像配准模型的更高分辨率阶段的原因。
—►(_ ■ X: X
—
Linear |x: n X dm
t
c MatMuI ]X: n X dm
t X: 71 xdm
| MatMul+Scale |
Kt X: % x dm V X:nx dm
( Linear □ c Linear |
Q X: n X dm 仁 X:7l X dm
1
[ DWConv+LN □ 匚 GConv+LN □
t t
X:n x dm
图4.1基于卷积的高效自注意力机制CEMSA
为解决 Transformer 中参数量大,模型复杂度高,难以应用在 3D 图像配准 任务中更高维度的编码器和解码器中的问题,提出了一种基于卷积的高效多头自 注意力模块CEMSAo提出的CEMSA自注意力计算方式如图4.1所示。与标准 Transformer相比,提出的CEMSA中采用了深度可分离,进一步捕获局部空间内 语义信息,降低由于全连接操作带来的全局范围内的语义模糊性。同时使用和分 组卷积减少Transformer模块的参数量以及模型复杂度。图4.1中,Q, K和V注 意力函数的每个词向量输入表示如公式(4.2)以及公式(4.3)所示:
xQ = LN (Flatten(DWConv3D(Reshape(x), s))) (4.2)
xK 尸=LN ( Flatten(GConv3D(Reshape(x), dm))) (4.3)
其中, x 表示输入到 CEMSA 的词向量,也就是输入的图像特征序列。
DWConv是内核大小为s的深度可分离卷积操作,Flatten为展平操。GConv是 分组卷积操作,组数等于输入维度数dm。在DWConv和GConv之后,使用层归 一化(Layer Normalization, LN)计算输出的词向量。然后,使用两个全连接操 作得到Q和Vo使用公式(4.1),首先利用Q和K通过点乘的方式计算自注意力 矩阵,使用Softmax将自注意力矩阵归一化到[0,1]的范围内,然后将计算得到的 自主力矩阵作为权重与V相乘,即可完成一次高效的多头自注意力机制MSA的 运算。本章提出的模型在1/4、1/8和1/16分辨率阶段使用不同的s进行深度可 分离的卷积操作,使用标准FFN来建模CEMSA的输出。至此,一个基于CEMSA 的Transformer模块构建完成。
54
4.2.2基于 CEMSA 的对称 Transformer 模型
图4.2提出的基于Transformer的对称配准模型SymTrans
凭借基于 CEMSA 的 Transformer 的特性,本文分别在模型的编码器和解码 器中对称的使用其来提取图像的高维特征表示。所构建的配准模型 SymTrans 如 图4.2所示。SymTrans是一个类似于U-Net的U形网络模型,由2个基于CNN 的编解码与解码层,3 个基于 Transformer 的编解码层与解码层组成。每个基于 Transformer 的编码、解码模块都需要一个图像特征序列的输入。
具体来说,在编码器中,在 1/1 和 1/2 分辨率阶段由两个相连的卷积操作组 成,然后是一个Instance Normalization (IN)层,从输入图像对中提取特征。在 1/4 分辨率阶段,使用步幅为 2、卷积核大小为 3 的卷积操作在编码器中的每个 Transformer之前执行patch嵌入(图4.2中的Patch Emb)操作,以获得具有重 叠的 patch 序列标记,作为输入 Transformer 中的词向量。然后,将这些序列输入 到指定的深度的基于 CEMSA 的 Transformer 模块 CETB 中。利用上述的模块在 编码其中对图像对进行深层特征提取,直到特征提取到 SymTrans 的底部。
在解码器中,将特征图输入到解码器中的下一级的 Transformer 块之前时, 利用patch扩展(图4.3中的Patch Exp)操作来放大特征图。具体而言,补丁扩 展操作由两个线性投影组成,随后使用LN操作对得到的特征进行归一化。首先, patch扩展先将每个特征图的维度扩展23倍。然后,它将特征图重塑为原始形状,
这样就得到了两倍于输入时的通道数。最后,它通过投影将每个特征图的维度减 少一半,这样就达到了扩大特征图的分辨率,同时保持通道数不变,实现了图像 特征序列的上采样过程。在SymTrans编码器与解码器之间,利用跳接连接编码 器中 Transformer 的输出特征图和解码器中上采样后对应分辨率阶段的特征。利 用特征融合(图4.3中的Fusion)操作来融合编码器和解码器中相对应的特征, 防止在深层特征提取时图像特征内的空间信息丢失。特征融合模块由一个卷积核 大小为3、步幅为1的卷积构成。
4.2.3SymTrans配准模型的无监督学习
可变形图像配准旨在建立两个图像之间的空间对应关系。一对图像的配准可 以通过能量函数进行优化。典型的优化问题表示为:
$ = argmin E (I”, If ,0) (4.4)
其中,E为能量函数,Im和If分别表示浮动图像和固定图像,0表示变形场 搜索空间,0为最佳的变形场,表示空间内像素点变换的方向和幅度,e是优化 模型的权重。配准中的能量函数E可以表示为:
E(Im , If ,0) = Esim (Im ° 0, If ) + 征逐(0), (4.5)
其中,Esim(•)是相似性度量,。是插值运算符,用于按照模型生成的变形场来 变形浮动图像,Im 是被变形场0变形的浮动图像。相似性函数是用于评估变 形后的浮动图像厶。0和固定图像“之间的对齐水平的度量。Ereg(•)是一个正则 项,用于强制变形场的平滑度。2是一个超参数,用于平衡相似性和正则项在训 练模型时的贡献。
基于提出的SymTrans,使用公式(4.4)对模型进行优化。分别对图像进行基于 位移场的配准和微分同胚的配准,其中基于位移场的配准表示为SymTrans,微 分同胚的配准表示为diff-SymTrans。本章提出的两个无监督可变形医学图像配准 分支如图4.3所示。
56
图4.3本章提出的基于Transformer的可变形配准方法示意
图 4.3 中, STN 为空间变换网络[105],用来遵循变形场的指导,将浮动图像 变换为浮动图像。虚线表示diff-SymTrans,使用速度场复合生成的变形所需要的 位移场。 SymTrans 与 diff-SymTrans 的区别就在于 SymTrans 直接利用模型生成 位移场用来变形图像,而 diff-SymTrans 模型则输出速度场,利用速度场和 SS (Scaling-and-Squaring)方法[74]生成最后的位移场,该预测的位移场能够保证变 形中的拓扑特性。最后使用STN对浮动图像施加模型输出的变形场。
微分同胚表示的是一种连续的、可逆的、一对一的映射的性质。设单位时间
t e [0,1], 一般的微分同胚的变形场计算如公式(4.6)所示:
警=*(0‘) = *(4.6) dt
其中,当t=0时,变形场0°为恒等变换,即表示此时的位移为0,。为复合 运算。在时间点1时,对上述公式在t时间内进行积分,可以得到单位时间内的 变形场。
SS 方法基于速度不随时间变化的假设,即使用固定的速度场,利用公式(4.6) 获得最终的变形场。根据文献[74]中SS方法,使用固定速度场来获得微分同胚的 变形场。其中,固定速度场表示速度场中的任何点的速度不随时间的改变而变化。 设初始的变形场如公式(4.7)所示,T表示将0到1时刻分为T个时间节点,p为 初始的恒等变换。由于每个时间节点上的速度 v 是恒定的,因此可以使用公式 (4.8),利用前一时刻的变形场,生成当前时刻的变形场。循环复合运算t时刻的
变形场,直到公式(4.9)中的1/2时刻,利用1/2时刻的变形场即可生成最终在时 间点1时的变形场0(1)。
0) = P + 罗 (4.7)
0(加)=0网。0(1⑵) (4.8)
01 = 0皿)0 (4.9)
SymTrans 模型通过评估对齐图像和固定图像之间的相似性,以无监督的方 式进行训练。如图4.3所示,给定一个图像对(Im, If), SymTrans输出变形场 0o然后,STN扭曲Im以获得变形后的图像厶。0。本章中使用公式(2.5)的MSE 损失来度量Im与Im °0的相似度。然后使用变形的空间梯度V0计算L2损失,以 全局约束预测的变形场平滑。综上所述,本章通过最小化损失函数 L = Lsim(If,Im o0) + 2Lreg(V0)来学习 SymTrans 模型的权重e。
4.3实验评估与分析
4.3.1数据与评价指标
本章实验在3D大脑MR影像数据集上训练了 SymTrans与diff-SymTrans模 型。本节使用公开可用的数据集OASIS[133],该数据集由425个T1加权的大脑 MR影像组成。实验用数据集由270个MR从OASIS中随机选择的图像构成。 数据集预处理遵循3.3.1节中的数据预处理方式。OASIS数据集被划分为三个子 集,其中200个3D大脑MR影像作为训练集,34个3D大脑MR影像作为验证 集,训练集与验证集是在数据集中随机选择的。在剩余的影像集中,有重复的随 机选择3 组由 36个影像构成测试集,即测试集含有540个影像对用于最终测试 模型的性能。测试集是从OASIS数据集中随机选择的。训练模型时使用全排列 的配准方式,即在训练集中使影像一一配对,共获得39800个影像对作为本章的 训练集。
本节使用Dice相似度系数对对比方法和所提出的方法进行评估。Dice用来
58
计算3D大脑固定影像的分割图与变形后的浮动影像对应分割标签之间分割图重 叠面积的比重。使用非正雅可比行列式0来表示变形场中的折叠数。
< 0表示体素在通过变形场变形时失去其原有拓扑属性的位置。
4.3.2对比算法与本章算法的实现
本文将 SymTrans 与 diff-Symtrans 方法与五种方法进行了比较,包括一种传 统方法和四种深度学习方法。对称图像归一化配准方法SyN[32]是一种传统的迭 代方法,用于计算3D大脑MR影像间微分同胚的变形场。本章使用ANTs[144]工 具箱中使用 SyN 实现,并将其迭代超参数设置为[100, 100, 100]。基于深度学 习的方法包括基于CNN的VoxelMorph[72]、基于CNN的SYMNetW 基于 Transformer 的 ViT-V-Net[89]和基于 Swin Transformer 的 TransMorph[96]。本章实验 使用这四种深度学习方法的开源实现。所有的方法均使用相同的数据集划分。实 验均使用默认的超参数设置来训练 VoxelMorph , SYMNet , Vit-V-Net 和 TransMorph。
SymTrans 与 diff-SymTrans 基于 PyTorch[135]来实现。SymTrans 训练时使用 MSE作为相似度损失函数,L2空间正则项用来约束变形场。所使用的损失函数 与 VoxelMorph、 Vit-V-Net 以及 TransMorph 一致,因此, SymTrans 的正则项超 参数2设置与对比算法一致,均设置为0.02o所有基于深度学习的对比实验以及 所提出的方法均使用Adam优化器在NVIDIA RTX 3080 10 GB GPU上进行训练, 学习率为0.0001。 所有深度学习方法的最大训练次数为30万次。
SymTrans在训练过程中的详细配置如下:在1/4、1/8、1/16分辨率阶段时 s = {24,16,12};在每个分辨率阶段Transformer的头的个数分别设置为2、4、8; 一个图像块的大小,即 patch 的大小设置为{3,3,3}; 在分组卷积中,卷积核的组 数为输入特征维度数目。
4.3.3对比实验结果与分析
图 4.4 中显示了一对图像的配准结果。在采样切片中标记了三个解剖结构的 分割图边界,以表示每个解剖结构的变形。图中,Fxied Image为固定图像Moving
Image 为浮动图像。第一行为三个方向上的变形场的 RGB 颜色可视化结果,其 颜色表示三个方向大小的大小。一个位置上的颜色表示了变形过程该位置上体素 位移的方向与位移的大小。一个位置上的点与周围点的颜色对比度越大,表示该 点的位移与周围位移方向越不同;颜色越深,表明该点的位移越大。
本章使用 Dice 指标定量评估对比算法和提出的 SymTrans 与 diff-SymTrans 的配准准确性,并将SymTrans的结果与对比算法的结果进行成对t检验。非正 雅可比行列式0用于评估变形场中的折叠数。表4.1中展示了不同方法在测 试集上的平均结果。Affine表示未经配准的影像分割图的Dice指标。与对比算 法相比,直接用位移场配准的SymTrans在平均Dice指标上表现最优。其次是基 于Swin Transformer的TransMorph,以及本章提出的微分同胚准配准的diff- SymTranso提出的SymTrans在Dice指标上优于TransMorph的结果0.6%;优于 Vit-V-Net 的结果 1.2%;优于 VoxelMorph 的结果 1.8%;优于 SYMNet 的结果 3.3%o在这些基于深度学习方法中Dice结果最低的是SYMNet。虽然在结果上 TransMorph 与 diff-SymTrans 在 Dice 指标上的结果一样,但是,diff-SymTrans 输 出的变形场产生了更少的0 ,其平均的值仅为1左右,表明在与TransMorph 配准精度一致的条件下,diff-SymTrans的变形更为平滑,能够更好的保持原图像 在变形过程中其解剖结构的拓扑属性,这是由于 diff-SymTrans 模型输出的是速 度场,而非位移场。利用预测的速度场,diff-SymTrans使用SS模块将预测的速 度场复合为最终的位移场,使该位移场保持微分同胚的特性,从而保证达到变形 过程中的拓扑性质的保留,实现平滑的变形。此外,SymTrans和diff-SymTrans 的较低标准差表明,所提出的SymTrans网络结构在对医学影像间的解剖关联性 建模时有更好的鲁棒性。结合表4.1可以发现,基于Transformer的配准模型Vit- V-Net、TransMorph、SymTrans 和 diff-SymTrans 在配准精度 Dice 指标上都优于 基于CNN的方法VoxelMorph与SYMNet,表明Transformer在医学影像配准任 务中的建模能力优于CNNo
60
图4.4 对比实验中所有方法预测的变形场与变形后的图像切片示例
表4.1 在3D大脑影像数据集上的对比结果
Method Dice J0< 0
Affine 0.550 (0.069) -
SyN[32] 0.675 (0.040) 35.516 (82.015)
VoxelMorph[72] 0.739 (0.031) 1307.711 (586.046)
SYMNet[77] 0.724 (0.026) 1119.861 (335.261)
Vit-V-Net[89] 0.745 (0.029) 1441.585 (577.358)
TransMorph[96] 0.751 (0.026) 1445.309 (549.482)
SymTrans 0.757 (0.025) 1485.659 (587.560)
diff-SymTrans 0.751 (0.025) 1.064 (5.840)
为了展示每个解剖结构的配准结果,图 4.5 以箱线图的形式展示了 35 个解 剖结构的平均 Dice 指标。为了方便此箱线图的展示,将左右脑中对称的解剖结 构合并为一个,并统计左右脑中相同结构的平均Dice指标。图4.5中统计的19 个分割标签的名称分别为:Brain Stem (BS), Thalamus (Th), Cerebellum Cortex (CblmC),Putamen (Pu),Pallidum (Pa),Cerebral White Matter (CeblWM),Lateral Ventricle (LV), Ventral DC (VDC), Cerebellum White Matter (CblmWM), 3rd Ventricle (3V),Caudate (Ca),Amygdala (Am),Hippocampus (Hi),Caudate (Ca), Hippocampus (Hi),4th Ventricle (4V),Accumbens (Ac),Cerebral Cortex (CeblC), Choroid Plexus (CP), Inf-Lat-Ventricle (ILV),以及 Vessel (Ve)o
本章以每个算法作为分组依据,按照均值从小到大排序来显示箱线图。在图 4.5 中可以观察到 SymTrans 在所有 19 种组合结构上均优于对比方法。 diff- SymTrans方法比除TransMorph和SymTrans以外的所有对比方法产生更好的结 果,同时产生最小的折叠。综上所述,所提出的基于CEMSA的对称Transformer 模型 SymTrans 用于位移场以及微分同胚的配准均得到了最佳的性能。在测试集 上每个解剖结构上的Dice均值记录于表4.3中。
62
此外,为了验证提出的SymTrans以及diff-SymTrans与基于深度学习的对比 算法相比性能上取得了显著性的改进,本章进行了成对t检验。当p值小于0.05 时表明算法的性能得到改进;当p值小于0.01时表明算法的性能得到改进显著 性的改进。提出的SymTrans以及diff-SymTrans与对比算法的成对t检验的p值 结果如表 4.2 所示。通过该表可以看到除 diff-Symtrans 与 TransMorph 进行的成 对t检验以外,所有的p值都远小于0.01,说明提出的方法在性能上得到了显著 的改进。与 TransMorph 的 p 值不低是由于两个配准结果太相似,导致检测的显 著性不高。
表4.2与对比算法进行成对亡检验的Q值
VoxelMorph SYMNet Vit-V-Net TransMorph
SymTrans 2.64e-132 2.42e-295 1.22 e -91 9.43e-49
diff-SymTrans 2.00e-87 1.84e-245 2.86e-40 7.11e-1
表4.3在大脑MR数据集中每个解剖结构上的Dice对比结果
结构名称 SyN VM SN VVN TM Ours Ours
Left-CeblWM 0.717 0.840 0.810 0.844 0.846 0.850 0.844
Left-CeblC 0.579 0.723 0.674 0.728 0.728 0.735 0.726
Left-LV 0.758 0.842 0.815 0.847 0.848 0.850 0.845
Left-ILV 0.301 0.405 0.363 0.411 0.425 0.438 0.432
Left-CblmWM 0.778 0.831 0.828 0.834 0.838 0.841 0.836
Left-CblmC 0.834 0.874 0.868 0.876 0.879 0.882 0.880
Left-Th 0.850 0.885 0.879 0.891 0.894 0.895 0.893
Left-Ca 0.720 0.812 0.780 0.823 0.824 0.824 0.823
Left-Pu 0.821 0.841 0.834 0.849 0.854 0.857 0.856
Left-Pa 0.812 0.836 0.824 0.837 0.849 0.850 0.843
3V 0.691 0.780 0.789 0.788 0.799 0.799 0.794
4V 0.679 0.787 0.760 0.795 0.794 0.800 0.793
BS 0.889 0.915 0.907 0.917 0.918 0.919 0.918
Left-Hi 0.682 0.753 0.735 0.759 0.765 0.775 0.773
Left-Am 0.736 0.763 0.759 0.764 0.781 0.786 0.781
Left-Ac 0.682 0.730 0.736 0.745 0.759 0.760 0.755
Left-VDC 0.804 0.826 0.827 0.834 0.839 0.841 0.838
Left-Ve 0.273 0.319 0.324 0.333 0.348 0.373 0.350
Left-CP 0.324 0.409 0.390 0.416 0.424 0.426 0.420
Right-CeblWM 0.719 0.843 0.815 0.846 0.848 0.852 0.846
Right-CeblC 0.580 0.725 0.679 0.729 0.729 0.737 0.727
Right-LV 0.768 0.851 0.818 0.857 0.857 0.860 0.854
Right-ILV 0.300 0.418 0.378 0.422 0.435 0.452 0.443
Right-CblmWM 0.786 0.838 0.837 0.843 0.845 0.848 0.844
Right-CblmC 0.840 0.879 0.874 0.882 0.884 0.887 0.884
Right-Th 0.854 0.891 0.887 0.895 0.896 0.900 0.898
Right-Ca 0.719 0.810 0.776 0.819 0.818 0.824 0.821
Right-Pu 0.814 0.839 0.835 0.842 0.846 0.852 0.849
Right-Pa 0.808 0.830 0.828 0.835 0.842 0.845 0.841
Right-Hi 0.691 0.761 0.742 0.769 0.776 0.784 0.781
Right-Am 0.756 0.772 0.765 0.776 0.793 0.803 0.794
Right-Ac 0.662 0.701 0.699 0.717 0.734 0.738 0.735
Right-VDC 0.806 0.825 0.826 0.833 0.837 0.841 0.838
Right-Ve 0.238 0.285 0.263 0.299 0.310 0.318 0.304
Right-CP 0.363 0.444 0.420 0.454 0.455 0.459 0.455
4.3.4模型复杂度对比
为了验证提出的CEMSA具有低参数量和较低的模型复杂度,本节在参数数 量和FLOP方面将其与对比算法进行了比较。表4.4显示了每种方法的FLOP量 和参数量。基于CNN的模型,即VoxelMorph和SYMNet,比所有基于Transformer 的模型具有更少的参数和FLOP。因为基于Transformer的模型具有许多线性运 算层(全连接操作),这增加了模型的参数量和FLOP数。在三种基于Transformer 的方法中,提出的SymTrans具有最少的FLOP与参数量。这是由于CEMSA中 使用的深度可分离卷积是一种高效的计算局部信息的方式,同时它和分组卷积也 能够有效的减少参数量以及模型的复杂度。与 Vit-V-Net 和 TransMorph 相比, SymTrans的参数要少得多,FLOP数也更少。就模型的具体实现来说,Vit-V-Net 在模型底部使用了 12 个 Transformer 模块,每个模块包含 1.76M 的参数。
TransMorph 在编码器的 1/4 分辨率阶段开始使用 Swin Transformer 模块,对 96 维的输入图像特征序列进行建模,直到模型的底部,而在模型的解码器中则使用 传统的CNN模块。在SymTrans中,基于CEMSA的Transformer模块在编码器 中每个分辨率阶段被的使用的个数等于 TransMorph 中每个阶段对应的 Swin Transformer模块的个数。
通常,Transformer的参数量随着输入图像特征尺寸的增加而增加。SymTrans 在模型的1/4、1/8和1/16分辨阶段分别在编码器和解码器中应用基于CEMSA 的Transformer模块。即便在如此多的分辨率阶段应用基于CEMSA的Transformer 模块,SymTrans也比Vit-V-Net少约49%的参数量,比TransMorph少约67%的 参数量。在实验中,图像包含体素个数为96x112x96 , batch为1的时,SymTrans 在训练期间占用的GPU内存约为3GBo在相同条件下,Vit-V-Net和TransMorph 分别占用大约6 GB和7 GB的GPU内存。关于参数数量和FLOP的统计结果表 明,所提出的 CEMSA 是减少参数量的可行方法,为在高分辨率阶段中使用 Transformer和构建对称的Transformer模型结构的提供了基础,从而能够提升配 准模型的性能。
表4.4对比算法的参数量及模型复杂度
Method Trans. L. Params (M) FLOPs (G)
VoxelMorph[72] - 0.29 59.82
SYMNet[77] - 1.12 44.51
Vit-V-Net[89] 1/16 31.5 65.77
TransMorph[96] 1/4 46.69 112.75
SymTrans 1/4 18.69 63.61
4.3.5消融实验结果分析
本节探索在模型中不同位置应用基于 CEMSA 的 Transformer 的性能,以证 明对称框架是有效的。消融实验中的 SymTrans 用于执行基于位移场配准。本节 中的消融实验的变体模型都进行 10 万次迭代训练。然后,在验证集上找到训练 后的最佳模型权重,并在测试集上统计相应的结果。
表4.5展示了三种SymTrans变体的平均Dice结果。为了清楚地说明这些变 体结构之间的差异,表4.5中列出了每种方法详细的结构组件使用情况。E- SymTrans表示仅在编码器中使用基于CEMSA的Transformer模块,而在解码器 中用卷积块取代基于CEMSA的Transformer模块。
D-SymTrans表示仅在解码器使用基于CEMSA的Transformer模块,其余模 块(如图4.2所示)使用卷积模块替换。patch嵌入(Patch Emb)操作和这两个 消融中的特征融合模块(Fusion)被替换为基本的卷积模块。
B-SymTrans是一种基于CNN的架构,其模型底部使用10个基于CEMSA 的Transformer模块。每个卷积块之后都有一个LeakyReLU激活以构建一个卷积 操作。卷积操作模块的个数与被替换的基于 CEMSA 的 Transformer 模块的个数 相同。patch扩展块(Patch Exp)将替换为反卷积操作。
E-SymTrans 和 D-SymTrans 的结构形式对应于 TransMorph 和 Vit-V-Net 中使 用Transformer的结构形式。通过表4.5可以观察到标准的SymTrans实现了最佳 性能。这些消融实验的结果表明,在模型的高分辨率阶段使用基于 CEMSA 的 Transformer并将其对称的应用到编码器和解码器中可提高配准精度。这意味着, 使用对称结构的Transformer对高分辨率特征图进行建模可以帮助模型识别解剖
66
结构有意义的语义对应关系。
表4.5在配准模型中不同位置应用基于CEMSA的Transformer的实验结果
Method Modules Encoder Bottom Decoder DSC
Patch Emb X X
Fusion - - X
E-SymTrans Patch Exp - - X 0.747 (0.026)
CETB X X
Patch Emb X X
Fusion - - X
B-SymTrans Patch Exp - - X 0.735 (0.029)
CETB X X
Patch Emb X X /
Fusion - - /
D-SymTrans Patch Exp - - / 0.743 (0.028)
CETB X X /
Patch Emb /
Fusion - - /
SymTrans Patch Exp - - / 0.753 (0.025)
CETB
此外,为了验证平滑正则项在训练时对基于Transformer的SymTrans配准模 型的影响,本节统计了网格搜索时的参数设置与对应的配准准确率。不同超参数 对应的结果如图4.6所示。图中,纵坐标表示配准在验证集上的平均Dice指标, 横轴为网格搜索时使用的超参数2。从图中可以看到,在0.02时SymTrans的性 能最优。
4.4 本章小结
由于Transformer本身的大参数量以及模型复杂度,导致Transformer应用在 3D 医学影像配准模型中时只能采用一些折中的方式,例如在模型底部应用 Transformero这种折中方式导致Transformer仅以最低分辨率级别获取图像的特 征信息,从而限制了 Transformer 对医学图像建模的性能。此外,非对称的基于 Transformer也会影响配准模型的精度。为解决以上问题,本章首先提出了一种用 于捕捉局部空间语境、减少语义模糊性、参数数量及模型复杂度的高效多头注意 力机制CEMSAo基于所提出的CEMSA,构建了对称的可变形配准模型SymTrans。 在SymTrans中,基于CEMSA的Transformer模块应用于模型的底部,还应用于 模型的编码器和解码器更高分辨率的级别中。
为了验证提出的基于 CEMSA 的 Transformer 以及对称模型 SymTrans 模型 的性能,我们在3D大脑MR影像上进行了实验。与基于深度学习的无监督可变 形配准模型 VoxelMorph、SYMNet、Vit-V-Net、TransMorph 和传统的 SyN 的实 验结果表明,在大脑MR影像数据集上,SymTrans在Dice指标上取得了最好的 配准结果;diff-SymTrans在Dice指标上与TransMorph持平且优于其他方法,同 时在预测的变形场具有最小的折叠数。参数量及模型复杂度的统计表明了与基于 标准 Transformer 的 Vit-V-Net 和基于 Swin Transformer 的 TransMorph 方法相比,
68
提出的 SymTrans 具有最少的参数和模型复杂度。消融实验表明提出的将 Transformer应用在高分辨率阶段以及对称的结构设计是有效的。
第5章 基于加权的窗口注意力分辨率恢复的上腹腔图像
配准模型
5.1引言
在过去的十年中,卷积神经网络(Convolution Neural Network, CNN)在计 算机视觉方面取得了巨大的成功。得益于这些成功和CNN的快速发展,基于CNN 的方法成为医学图像分析的研究焦点。特别是自U-Net提出以来,由于其参数少, 并且考虑了低级和高级语义信息,它及其变体已广泛应用于医学图像分析任务。 对于图像配准这一医学图像分析的基础研究,基于CNN的方法也成为过去的研 究的热点。基于 CNN 的方法与传统方法相比具有准确快速预测变形场的优点。 然而,由于CNN的感受野范围有限,配准性能可能会受到限制。
近年来,基于Transformer的方法在自然语言处理(NLP)方面取得了显著 的成就,这要归功于在全局范围内的自注意力机制。ViT[145]将Transformer引入 CV领域,并在图像识别方面取得了好的图像识别结果,使人们意识到Transformer 的在CV中的潜力,引起了学者们的关注,使其在CV领域得到广泛应用。对不 确定范围内的空间对应关系敏感的可变形图像配准更适合用Transformer这种全 局范围内感知的模型来建模。
基于移动窗口的 Transformer (Swin Transformer), 是一种基于 Transformer 的多尺度网络基础模型,它通过窗口划分在每个窗口内执行多头自注意力机制 (MSA)的计算。通过这种方式,Swin Transformer中MSA的模型复杂度从二 次复杂度降低到线性复杂度,这意味着Swin Transformer比标准的Transformer更 高效。此外,Swin Transformer的分层性质使其更适合多尺度建模任务。基于Swin Transformer 的配准模型 TransMorph[96],其结果表明了 Swin Transformer 在可变 形图像配准方面的优异性能。
腹腔图像通常比大脑图像更加难以配准,其原因包括:不同病人由于器官滑 动导致器官的相对位置发生改变;病人的器官大小、形状相差较大,导致腹腔图 像难以像大脑图像进行严格的预处理(由于大脑是单一器官,经过预处理之后, 大脑在图像中的先对位置是几乎一致的)因此,使用构建远程体素的相关性对于
70
腹腔配准任务来说更加重要。但是,当使用 Swin Transformer 作为可变形图像配 准模型中的基本模块时,面临着两个问题:
(1)缺乏细粒度的空间信息。在用于图像配准的U型模型中,图像被分成 1/4分辨率级的图像“词"输入到Transformer模块中。因此,Transformer对图像 建模后的输出仍为粗粒度,丢失密集变形场预测时所必需的细粒度空间信息。
(2)窗口内信息关联不灵活。Swin Transformer使用循环移位窗口划分操作 来构建窗口之间的关联,以实现全局范围内的窗口间的信息交互。然而,这是一 种不灵活的方式来构建窗口之间的交互,导致模型无法感知全局范围内的空间相 关性,尤其是对于腹腔这种具有位移大、对应关系复杂的配准任务来说更有影响。
为了解决以上的两个问题,本章首先提出了恢复特征分辨率网络(Recovery Feature Resolution Network, RFRNet),这是一个基于 Swin Transformer 的 U 型 配准模型。提出的RFRNet使用基于Swin Transformer的编码器和基于CNN的 解码器。该编码器捕获图像对的深层特征表示,解码器将特征表示重新恢复到图 像原始分辨率,直到输出密集变形场。特征恢复模块在前两个Swin Transformer 模块之后使用,用于在通道方向上补充Swin Transformer输出的特征表示。利用 在通道方向上补充的信息,能够将更高分辨率阶段中缺失的语义信息进行填充, 从而实现将低层次特征的分辨率恢复到更高分辨率阶段。随后,本章提出了一种 加权的窗口划分注意力机制(Weighted Window Attention,WWA)。它通过学习 每个窗口内的全局信息并决定如何调整每个窗口的特征表示,从而构建全局范围 内窗口之间的关联,以此实现窗口之间动态构建全局范围内的特征交互。本章提 出的基于加权窗口的恢复特征分辨率网络模型被称为RFR-WWANet。本章主要 创新点包括:
(1)提出一种恢复特征分辨率的无监督图像配准模型,称为RFRNet,它由 基于Swin Transformer的编码器和基于CNN的解码器组成。RFRNet通过将特征 表示恢复到更高分辨率的阶段,增强Transformer输出特征在模型中的贡献。
(2)提出一种加权窗口注意力机制,称为WWA,用于自动建立窗口之间的 全局注意力,以实现全局范围的窗口间的语义信息交互。
5.2基于特征分辨率恢复及加权窗口注意力的配准模型
5.2.1特征分辨率恢复网络模型
Swin Transformer 是一个分层的结构,它通过利用预定的规则和移位窗口的
方式来计算每个窗口内的自注意力机制。给定第l层的输入特征表示m1,相同分
I 1 WWA Block
II Successive Convolutional
I 兀3 J Patch Embedding
PE Patch Expanding
i I Patch Merging
图5.1 特征分辨率恢复网络
辨率阶段的连续Swin Transformer模块的建模过程如公式(5.1)所示:
m1 = W-MSA (LN (m- )) + m1
1+1
m1+1 = SW-MSA ( LN ( m1+1)) + m1+1
m1+2 = MLP [ LN ( m1+1)] + m1+1
其中,W-MSA和SW-MSA分别表示常规和循环移位的窗口划分下的基于 窗口的多头自注意机制,LN (Layer Normalization)表示层归一化,MLP表示多 层感知器模块[85]。一个窗口内的特征矩阵可以用公式(5.2)来计算:
Attention(Q,K, V) = SoftMax(QKT / Vd + B)V (5.2)
其中,Q, K, V分别为查询值(Query)、键值(Key)与值(Value)的矩 阵, B 是可学习的相对位置编码。
设x是在3D空间域RD" ”2 (即* G冗D"H"W ”2 )上定义的图像对,其中D、
H和W分别是图像的深度、高度和宽度大小。如图5.1所示,所提出的RFR-
72
WWANet 是一个 U 型形架构的网络模型,输入一个图像对进入 RFR-WWANet, 计算后得到将浮动图像变形到固定图像的变形场0。使用u型结构的优点在于能 够在逐步提取图像对的深层特征时,能够利用编码器中的浅层特征纠正在特征提 取时丢失的空间信息。在本章中,利用基于CNN的连续patch嵌入(Successive Convolutional Patch Embedding , SCPE ) 来 获 得 输 入 到 Swin
图5.2 SCPE与加权窗口注意力机制
Transformer模块中的特征表示。如图5.2所示,SCPE由两个卷积模块组成,其 中用于将特征输入到下一个分辨率阶段卷积模块由步幅为2,卷积核大小为3的 卷积操作构成。在同层内进行特征提取的卷积块由步幅为1,卷积核大小为3的
DHW
卷积操作构成。SCPE输出一个形状为(-,—,W,C)的3D特征表示序列,其中
444
C是输出特征的通道数。
在SCPE之后,使用Swin Transformer作为编码器中的图像对深层特征提取 的模块。对于图像的深层特征使用非重叠的立方体窗口来计算局部的自注意力机 制。本章提出的方法使用长方体窗口形状(d,h,w)来划分输入的图像对,使 图像对可以被均匀的划分为窗口的形式。在每层中第l个Swin Transformer模块
中,使用Swin Transformer中的常规窗口划分方式,可以得到batch为N的窗口
DHW
特征。其中,窗口划分数目的计算公式为N=D”4h”4W。在下一个(即1+1)
Swin Transformer模块中,本章遵循文献[95]中循环移位的方式划分窗口。每个被
征的左上到右下。在划分为窗口之后,输入的图像特征即变为形状为
(N,d”h”w,C)的词特征序列。然后,利用公式(5.1)与公式(5.2)即完成两个相邻
的特征向量计算。
patch扩展(patch expanding)操作用于许多U型的基于Transformer的模型 之中[124,146]。patch扩展操作沿不同通道扩展特征图,然后将特征表示通过在通道 方向上将特征重塑为输入分辨率的两倍,从而实现对Swin Transformer模块块输 出的深度特征表示分辨率的恢复。具体来说,如图5.1 所示,首先在1/4分辨率 阶段,使用Swin Transformer模块对SCPE输出的特征进行建模。用于恢复特征 分辨率的patch扩展操作将此特征表示的分辨率恢复到1/2模型的分辨率阶段。 接下来,在向上和向下的模型分支分别建模此特征图。恢复的特征将送到向下分 支中的下一个Swin Transformer模块中。利用patch合并(patch merging)操作将 每组2”2”2相邻的特征区域拼接起来,然后应用线性操作(全连接操作)减少通 道数,以实现将特征分辨率减小到下一分辨率阶段。同时,恢复的特征表示将继 续恢复到原始分辨率大小的阶段。跳接用于将编码器中的特征与解码器中 1/4、 1/2 和原始分辨率阶段中相应卷积模块的输出连接起来。由于恢复分辨率的特征 连接到更高分辨率阶段的解码器中,同时使用跳接将该恢复后特征与三个分辨率 阶段依次相连。因此,Swin Transformer模块在此配准模型中向解码器中输出了 细粒度的特征,并且,该特征输出也能够在跳接后改善模型在深度特征提取时丢 失的空间信息。在编码器的其余分辨率阶段,本章继续使用Swin Transformer模 块对深层特征表示进行建模,直到到达底部。图5.2中展示了 SCPE与1/4分辨 率阶段的两个相连的基于加权窗口注意力机制的Swin Transformer模块的具体结 构。
74
5.2.2加权的窗口注意力机制
受注意力机制文献[147,148]的启发,为了提高构建划分后的窗口在Transformer 模型中的交互能力,本章提出了一种注意力机制WWA,用于计算窗口之间交互 权重并在全局范围内动态构建窗口特征关联。WWA在为窗口序列加权时分为两 个阶段,一为跨通道注意力(Cross-Channel Attention),二为跨窗口注意力(CrossWindow Attention)阶段。WWA计算流程如图5.3所示。
给定大小为(NxKxC)的窗口序列W,该序列是常规和移位窗口划分操作的 输出,其中N是窗口个数,K是每个窗口的长度,C是序列的通道数。每个窗口 的长度K表示每个窗口 Wj中的元素个数。W的一个元素可以表示为Wk,其中 i G N, j G C,k G K。如图5.3所示。带有K个元素的W被表示为子立方体以获得 更好的展示。
在跨通道注意力阶段,输入窗口序列被转换为由均值(Mean Value)操作计 算得到的均值窗口序列W。该均值计算如公式(5.3)表示:
_ K
Wj =(工Wi,j,k)/K,(/ G N, j G C) (5.3)
k=1
式中,窗口 Wj内元素的平均值表示为Wj。一个均值窗口序列 W = {%,W2j,…,%}。然后,将计算后的均值矩阵输入MLP模块中,之后再使 用Sigmoid将该矩阵概率化。使用的MLP模块有一个隐含层,其缩减因子为4, 用于计算W的跨通道注意力映射a。随后,注意力矩阵中的每个元素勺都扩展 为(N”K”C)的大小。整体上,a = Sigmoid(MLP(W))。最后,对a和开始时输 入的W进行点乘运算,得到加权窗口序列W'。计算加权的W'的跨通道注意力 机制可以表示为如公式(5.4):
W ' = Sigmoid(MLP(W)) ® W (5.4)
在跨窗口注意力阶段,来自前一个跨通道注意力的输入W'被重塑为 (K”C”N)的形状。因此,窗口序列中有K个元素的一个窗口被定义为W;,如 图5.3所示,跨窗口注意力机制首先计算沿通道方向的平均值得到W'。这可以用 公式(5.5)表示:
Wi'= (EW-i)/C,(i G N, j G C) (5.5)
j=1
在得到W'序列后,利用跨通道注意力机制中描述的相同结构的MLP计算注 意力序列0。然后,将0扩展为W'的形状。整体上,0=Sigmoid(MLP(Wj)。使 用与W点乘操作得到加权后的窗口序列W'',具体计算方式如公式(5.6)所示:
W " = Sigmoid(MLP(Wj)) ® W (5.6)
至此,一个窗口序列W在经过WWA之后得到的加权后的窗口序列为W'', 其中用于窗口的权重,即注意力矩阵是根据窗口之间的信息计算的。我们以这种 方式建立了全局窗口之间的动态关联。一个 WWA 的窗口输入和输出示例如图 5.4所示。
76
图5.4中,(a)表示两个输入到WWA的窗口示例,(b)为两个通过WWA 加权后输出的窗口。每个切片表示在 1/4 分辨率阶段具有 96 个通道(横轴)和 48个元素(纵轴)的窗口特征。其中,48是由本章中窗口大小的设置所决定的。 在本章中,将窗口大小设置为(6,4,2) ,即一个窗口内含有的元素个数为48。
图5.4经过WWA加权后的窗口示例
5.2.3RFR-WWANet 配准模型的无监督学习
可变形图像配准,即非线性图像配准,目的是最小化能量函数,以在图像对 之间建立密集的空间对应关系。优化目的是在变形场的搜索空间内找到最佳变形 该变形可以表述为:
0 = argminCm Um。) + geg (0)), (5.7)
0
其中,Im和If分别表示浮动图像和固定图像,1十0是通过变形场变形的图 像。在基于深度学习的方法中,。为用来插值的STN网络,用于将变形场施加到 浮动图像上,运用插值将浮动图像中的体素变换到固定图像的空间坐标系中。 Csim是计算人。0和If之间的相似性损失函数。£reg(0)是平滑正则项,它强制变 形场平滑,2是用于平衡相似性和平滑性的在在配准模型中贡献的超参数。0是 在变形场搜索空间内得到的最优变形场。
本章按照公式(5.7)执行图像的可变形图像配准。使用均方误差MSE相似性 度量来评估配准之后图像间的相似性,即&im = MSE(Im。0,If)。在变形场的空间 梯度上使用扩散正则项[71]来约束变形场的平滑。变形场的空间梯度使用相邻位置 的变形场中的差分计算。平滑正则项表示为&eg = Diff(0)。则本章使用的损失函 数为£(Im,If ,0) = MSE(Im。0,If) + 2Diff(0),使用无监督的方式优化该损失函数 来训练可变形配准模型RFR-WWANet的权重。
5.3实验评估与分析
5.3.1数据预处理与评价指标
本章使用的数据集包括WORD[149]和BTCV两个数据集:
数据集WORD:该数据集由来自150名患者的150个腹部CT扫描组成,共 有30495个切片。每个CT都有16个带有精细的像素级标注的器官分割标签, 该标签由专业医生参与标注-WORD中的每个CT由159到330不等的512x512 个像素的切片组成。BTCV中每个切片的面内分辨率为0.976x 0.976mm2,这些 切片的间距范围为2.5 mm到3.0 mm。WORD包含三个官方子集,其中100个 CT图像用于训练,20个CT图像作为验证集(包含标签),30个CT图像作为 测试集(不包含标签)。
数据集BTCV:该数据集由50个腹部CT扫描组成,每个CT都有13个器 官注释。每个CT包含85到198个512x512个像素的切片。每个切片的面内分 辨率从0.54x0.54mm2到0.98x0.98mm2不等,这些切片的间距范围从2.5 mm到 5.0 mm不等。使用的BTCV数据集被官方分为两部分:训练集合测试集。
本章中选择WORD中的训练集和验证集以及BTCV中的训练集作为测试数 据。在WORD和BTCV中选择这些数据集是由于这些CT图像具有相应的分割 标签,使本节实验能够按以下描述的方式执行数据预处理。此外,通过这些与CT 图像对应的分割标签,可以将量化图像配准时配准在关键器官分割中的准确性, 能够使对比算法的结果与提出的方法结果进行量化的比较。本章使用TorchIO[150]
78
中的随机弹性变换,将WORD的训练数据集中的CT图像数目增加到200个。 这种数据增强方式对CT图像施加轻微变形,保留其原始拓扑属性。
在预处理过程中,将所有CT图像重新采样为1.5x1.5x 1.0mm3的体素间距。 将CT图像的强度值裁剪到[-200, 300] Hounsfield单位的范围内,然后强度值被 剪裁后的CT图像被归一化到[0, 1]的范围内。随后,翻转BTCV中的CT图像, 使其与WORD中的CT图像坐标方向一致。我们使用ANTs[144]中的仿射变换来 预处理BTCV中的CT图像,使其与WORD中的图谱进行大致的刚体对齐。预 处理时将CT图像中的肝脏、脾脏、左肾、右肾、胃、胆囊和胰腺的分割图保留 在WROD和BTCV的标签中,然后去除其余部分。使用每个标签的保留分割图, 在三维空间中查找这些器官的最大的置和最小位置,确定含有这些标签的最大位 置区域从而裁剪出上腹部CT图像。然后将每个CT图像重新采样为192x128x64 大小。
5.3.2对比算法与本章算法的实现以及配准评价指标
提出的RFR-WWANet模型通过使用PyTorch[135]实现。本章将正则化参数2 设置为0.04o提出的模型在NVIDIA RTX3080 10 GB GPU的服务器上进行训练, 使用Adam优化器优化学习模型的权重,学习率设置为0.0001。RFR-WWANet和 对比方法最大训练数为300轮。RFR-WWANet中的具体实现如图5.1所示,其 中通道数C设置为96o RFR-WWANet使用的窗口大小设置为(6, 4, 2)。MSA中 的头的个数在不同的Swin Transformer中设置为(4, 4, 8, 8)。
我们将RFR-WWANet与五种可变形图像配准方法进行比较,包括四种基于 深度学习的方法和两种传统方法。两种传统方法是deedsBCV[17]和SyN[32]。这 些传统方法使用推荐的参数设置。四种基于深度学习的模型包括VoxelMorph[72]、 CycleMorph[78]、SymTrans[146]和 TransMorph[96]。VoxelMorph 与 CycleMorph 是完 全基于CNN的U型模型。SymTrans和TransMorph是基于Transformer的模型。 四种基于深度学习的对比方法和提出的RFR-WWANet使用相同的损失函数,超 参数2 = 0.04用于在WORD的训练集上训练这些方法。
本章使用 Dice 评价指标和 Hausdorff 距离[151] (Hausdorff Distance, HD)来 评估配准的准确性。Dice是计算固定图像的分割图与变形后浮动图像对应分割
图之间重叠的指标。HD计算变形后浮动图像的分割图与固定图像的分割图之间 的表面距离。HD95计算它们之间表面距离的第95个百分比。非正雅可比行列 式0用于计算变形场中的折叠数。Dice指标越大表明两幅分割图重叠面积 越大,变形后的相似度越高;HD95值越小,表明图像分割标签的距离越小,变 形后分割标签的边界越匹配;| Jj< 0越小,表明使用变形场进行变形时,变形后 的图像越能够保持原有拓扑属性。
5.3.3对比实验结果与分析
本章在两个数据集上统计对比算法与RFR-Net的实验结果:使用WORD验 证数据集的结果和使用 BTCV 训练数据集进行测试的结果。这两个数据集用于 执行基于图谱的配准任务。本章在WORD的验证集中选择图谱,其中编号0001 的CT图像作为配准的图谱。训练时将训练集中所有的CT图像配准到该图像的 空间坐标系下,以此来使模型学习其他CT图像配准到该图谱的模型权重。在验 证和测试时,对应的使用WORD验证集中的CT图像配准到该图谱,使用BTCV 训练集中的CT图像配准到该图谱。我们使用两个数据集中上腹部的七个器官的 配准结果来评估模型性能。
(1)在WORD的验证集上进行结果统计与分析
表 5.1 显示了在 WORD 数据及上进行基于图谱配准的定量结果。表中,对 比算法的名称与缩写如下:deedsBCV (DB)、CycleMorph (CM)、VoxelMorph (VM)、TransMorph (TM)、SymTrans (ST)和 RFR-WWANet (RN)。表 5.1 中统计了肝脏(Liv)、脾脏(Spl)、左肾(Lkid)、右肾(Rkid)、胃(Sto)、 胆囊(Gall)和胰腺(Pan)中每个器官的平均配准结果和这些器官总的配准准确 性均值(Avg.)。
与对比方法相比,RFR-WWANet取得了最高的Dice指标和最低的HD95距 离。Dice指标表明对比的两个影像的分割图重叠面积的百分比,若Dice指标越 高,则说明变形后的分割图与图谱图像的分割图重叠面积越大,配准准确性越高。 而HD95指标表示变形场在对分割图标签进行变形后,变形后的分割图匹配图谱 的分割图边界的好坏程度。
80
通过比较,可以发现所有基于Transformer的方法都优于基于CNN的方法。 在7个器官的平均Dice指标上,RFR-WWANet比第二个deedsBCV高出1.2%; 在7个器官的平均HD95指标上,比deedsBCV低0.29。在7个器官中上的Dice 平均值比第三名TransMorph高出1.5%;在HD95指标上比TransMorph低0.30。 TransMorph以及提出的RFR-WWANet都是在编码器中使用Swin Transformer配 准模型,通过对比这两个模型的性能,能够体现本章提出的算法的有效性o RFR- WWANet 在7个器官的平均Dice指标上比SymTrans高出1.8%;在HD95指标 上比 SymTrans 低 0.38。相比于两个基于卷积神经网络的模型 VoxelMorph 以及 CycleMorph,在7个器官的平均Dice指标上分别取得了 3.6%的性能提升和5.6% 的性能提升;在 7 个器官的平均 HD95 距离度量上,比 VoxelMorph 以及 CycleMorph分别低0.76和1.17。在7个器官的Dice指标上,RFR-WWANet在 肝脏、脾脏、右肾、胃、胆囊这些器官上的指标都比对比算法要高;左肾和胰腺 的结果低于deedsBCV。与基于深度学习的方法CycleMorph、VoxelMorph、 TransMorph以及SymTrans相比,RFR-WWNet在Dice结果上都取得了最优。
0表示变形场中折叠位置占有的比例。除了产生几乎为零折叠的SyN、 deedsBCV两种传统方法外,其余方法的折叠百分比基本处于同一水平。
图 5.5 显示了配准结果可是化的一个示例。该可视化中包含肝脏(红色)、 脾脏(浅蓝)、左肾(黄色)和右肾(深蓝)的切片。通过图5.5发现TransMorph、 SymTrans 以及 RFR-WWANet 这三种基于 Transformer 的方法和 deedsBCV 可以 很好变形图像,因为在图5.5中,它们能够将胃移出当前切片,表明这些方法在 对预测变形场时能够通过建立更远程的体素间关系,从而在一致的全局正则化条 件下对图像变形。在此切片示例中,VoxelMorph和CycleMorph变形后的右肾标 签都丢失了它们的原始的拓扑属性,表明两个对比算法 VoxelMorph 以及 CycleMorph在结构差异较大的腹部图像上的配准结果均不如基于Transformer的 方法。
表5. 1在WORD验证集上的结果
SyN[32] DB[17] CM[78] VM[72] TM[96] ST RN
Dice
Liv 0.863 0.870 0.865 0.881 0.892 0.893 0.898
(0.033) (0.047) (0.023) (0.022) (0.020) (0.018) (0.018)
Spl 0.732 0.708 0.724 0.734 0.752 0.742 0.770
(0.098) (0.096) (0.116) (0.104) (0.106) (0.108) (0.096)
Lkid 0.706 0.821 0.658 0.668 0.690 0.688 0.721
(0.159) (0.048) (0.165) (0.156) (0.158) (0.178) (0.165)
Rkid 0.680 0.699 0.627 0.666 0.717 0.723 0.734
(0.119) (0.106) (0.118) (0.104) (0.111) (0.114) (0.104)
Sto 0.462 0.515 0.493 0.508 0.520 0.518 0.535
(0.128) (0.130) (0.111) (0.113) (0.108) (0.111) (0.104)
Gall 0.139 0.139 0.156 0.183 0.208 0.194 0.217
(0.151) (0.172) (0.163) (0.173) (0.181) (0.185) (0.198)
Pan 0.418 0.451 0.366 0.393 0.396 0.402 0.406
(0.118) (0.112) (0.112) (0.129) (0.124) (0.132) (0.133)
Avg. 0.571 0.600 0.556 0.576 0.597 0.594 0.612
(0.066) (0.006) (0.072) (0.075) (0.077) (0.081) (0.077)
HD95
Liv 11.869 11.243 10.694 10.457 10.645 10.621 10.509
(5.740) (6.418) (4.553) (4.999) (5.207) (5.875) (5.098)
Spl 11.292 12.848 11.945 11.191 10.992 11.333 10.465
(5.939) (6.175) (7.167) (6.906) (7.257) (7.278) (6.423)
Lkid 8.314 3.972 10.248 10.004 10.261 9.919 9.428
(4.315) (1.035) (4.203) (4.246) (4.361) (4.852) (4.438)
Rkid 10.665 9.932 11.358 10.743 9.239 8.889 8.801
(4.087) (3.971) (3.405) (3.258) (3.173) (3.612) (3.335)
Sto 19.462 17.194 17.919 17.151 16.714 16.766 16.362
(7.064) (7.117) (7.142) (6.970) (7.214) (7.035) (6.861)
Gall 18.061 18.472 16.266 16.042 15.253 15.846 15.534
(7.523) (8.277) (5.906) (6.575) (6.268) (6.911) (7.234)
Pan 10.718 10.321 11.706 11.124 11.003 11.179 10.878
(5.278) (4.391) (3.579) (4.109) (4.014) (4.107) (4.029)
Avg. 12.912 11.997 12.877 12.473 12.015 12.093 11.711
(3.798) (3.489) (3.628) (3.781) (3.891) (4.083) (3.826)
JJ< 0(%)
Avg. 3.27e-3 2.64e-2 3.08 1.31 1.15 1.40 1.16
(1.39e-2) (3.4e-2) (0.96) (0.051) (0.43) (0.48) (0.46)
82
N
I
g
c
M
T
M
Warped Image
WORD Fixed
WORD Moving
图5.5在WORD数据集上的切片对比结果
(2)在BTCV的训练集上进行结果统计与分析
通常,由于腹腔数据集需要专业医生进行复杂的标注,因此,每个数据集中 只有少量的标注过的CT图像。尽管WORD数据集中已经包含100幅CT图像 用于训练和30张CT图像用于验证,但还需要更多的图像来证明所提出方法的 性能。同时,使用未见过的数据进行实验能够评估模型的泛化性能。因此,本章 使用预处理后的 BTCV 数据集作为测试集来测试对比方法与所提出方法在 Dice 以及HD95指标上的性能。
实验结果如表5.2所示。尽管BTCV数据集在测试之前进行了初步的仿射变 换,并且对数据进行了截断,但所有方法的Dice指标都明显的降低,HD95距离 也有所增加。这是由于WORD和BTCV的成像设备参数不一致,虽然同为腹腔 的CT图像,但是数据分布的不一致是导致的结果降低的原因。在BTCV数据集 上的测试结果表明,除 CycleMorph 外,其他基于深度学习的方法的 Dice 指标 下降了约10%。尽管Dice指标都有所下降,RFR-WWANet仍然取得了整体平均 值上最好的结果,表明提出的 RFR-WWANet 具有更好的泛化能力。同为基于 Transformer的配准模型,TransMorph在该数据集上的性能有所下降,而SymTrans 的性能优于TransMorph,在此对比实验中位列第二。deedsBCV在BTCV训练集 上相比于RFR-WWANet,产生了相近的平均Dice指标。这是因为deedsBCV是 传统的迭代算法,每次计算变形场时都会迭代优化图像对之间的相似性,以此来 找到最优的变形场,因此数据集是否见过对其优化过程没有影响。
图5.6的显示了对比方法与提出方法在BTCV数据集上测试的定性比较。对 于BTCV中这些从未见过的数据,基于Transformer的方法仍然比两种基于CNN 的方法性能更好。通过观察这些器官变形的可视化结果切片,可以注意到 VoxelMorph和CycleMorph的变形导致原有拓扑属性的部分破坏,即图像中左右 肾脏的分割标签边界严重破坏,而基于Transformer的TransMorph、SymTrans以 及提出的RFR-WWANet较好的保留当前切片内解剖结构在变形过程中原有拓扑 属性。
84
表5.2在BTCV训练集上的结果
SyN[32] DB[17] CM[78] VM[72] TM[96] ST RN
Dice
Liv 0.818 0.851 0.835 0.845 0.859 0.860 0.869
(0.044) (0.034) (0.038) (0.036) (0.031) (0.034) (0.031)
Spl 0.659 0.620 0.679 0.694 0.705 0.704 0.720
(0.135) (0.160) (0.122) (0.101) (0.108) (0.116) (0.101)
Lkid 0.579 0.597 0.552 0.567 0.567 0.575 0.608
(0.157) (0.146) (0.154) (0.152) (0.188) (0.190) (0.161)
Rkid 0.596 0.669 0.622 0.619 0.662 0.667 0.665
(0.150) (0.089) (0.133) (0.143) (0.146) (0.166) (0.157)
Sto 0.349 0.472 0.375 0.391 0.385 0.383 0.388
(0.103) (0.118) (0.116) (0.117) (0.119) (0.112) (0.124)
Gall 0.209 0.265 0.271 0.265 0.282 0.276 0.281
(0.189) (0.179) (0.181) (0.177) (0.179) (0.169) (0.170)
Pan 0.289 0.332 0.292 0.291 0.280 0.297 0.306
(0.076) (0.101) (0.088) (0.096) (0.119) (0.111) (0.105)
Avg. 0.500 0.544 0.518 0.525 0.535 0.538 0.548
(0.070) (0.068) (0.065) (0.067) (0.079) (0.079) (0.071)
HD95
Liv 12.062 10.384 10.904 10.827 10.737 10.862 10.301
(4.731) (3.113) (3.767) (4.046) (3.944) (3.728) (3.587)
Spl 11.246 12.013 11.576 11.222 11.544 11.378 11.069
(5.241) (5.973) (4.437) (3.777) (4.385) (4.256) (4.535)
Lkid 9.910 9.053 12.447 12.200 12.132 12.391 12.116
(3.685) (4.336) (5.180) (4.955) (5.293) (5.225) (5.041)
Rkid 10.193 7.706 9.144 9.413 8.428 8.345 8.653
(4.659) (3.104) (2.870) (3.180) (3.312) (3.805) (3.832)
Sto 16.653 15.556 14.822 14.567 14.516 14.448 14.003
(3.937) (4.673) (4.133) (4.017) (4.303) (4.295) (4.023)
Gall 15.262 15.169 16.024 14.624 13.866 14.069 14.042
(6.029) (6.900) (5.444) (4.978) (4.378) (4.822) (4.089)
Pan 13.097 14.546 13.642 13.999 14.546 14.269 13.793
(3.330) (4.203) (3.225) (3.417) (3.816) (3.564) (3.654)
Avg. 12.632 12.061 12.651 12.407 12.296 12.252 11.997
(2.117) (2.425) (2.451) (2.158) (2.316) (2.449) (2.300)
JJ< 0(%)
Avg. 1.68e-3 4.27e-2 3.87 2.05 1.56 1.81 1.58
(7.34e-3) (1.59e-2) (0.86) (0.63) (0.46) (0.57) (0.46)
密
M
s
I
z
c
M
Warped Image
WORD Fixed
BTCV Moving
86
图5.6在BTCV数据集上的切片对比结果
5.3.4在大脑数据集上进行的额外实验
本章针对具有复杂对应关系的腹腔配准问题提出了 RFR-WWANet方法,在 两个腹腔数据集上与对比算法相比均取得了最优的性能。为了验证提出的算法在 其他器官上的性能,本章进行了额外实验,在大脑OASIS[i33]数据集上验证提出 方法的性能。在本节实验中,选取性能较优算法进行对比实验,包含基于 Transformer 的模型 TransMorph、SymTrans 以及传统算法 deedsBCV 作为对比算 法。本节使用第3章中预处理的大脑MR数据,使用200幅MR影像作为训练 集,随机选取4张图片作为图谱,组成由800个图像对构成的训练集,在该训练 集上执行基于图谱的训练。在剩余的影像中随机选取30个作为验证集,与选取 的图谱构成由120个影像对构成的验证集。再随机选择50个影像作为测试集, 与图谱构成由200个影像对构成的测试集。基于Transformer的TransMorph以及 SymTrans 以及 RFR-WWANet 均使用超参数 2 = 0.02,使用 MSE 作为 VoxelMorph 以及TransMorph的相似度损失函数。
表5.3为对比的实验结果。其中,Affine Only为未经配准前的Dice结果, 其方差为 0.048,本章实验使用的腹腔数据,其为经配准前的 Dice 值为 0.408, 方差为 0.229。与大脑数据集相比,腹腔数据的方差巨大,表明腹腔数据无法像 大脑数据一样进行严格的预对齐,图像间体素对应关系比大脑图像更为复杂。经 过实验对比,deedsBCV在大脑数据集上的性能不如其他基于深度学习的方法。 本章提出的方法RFR-WWA的性能依然优于TransMorph,但是性能不如本文第 4章中提出的SymTrans。这是由于SymTrans在CEMSA中使用了卷积操作,使 其在建模远程关系时首先更侧重与局部信息的建模。
表5.3 在大脑数据集上的实验结果
Method Dice 川0
Affine Only 0.591 (0.048) -
deedsBCV 0.693 (0.018) 3.308e-6 (4.182e-4)
TransMorph 0.738 (0.017) 0.164 (0.048)
SymTrans 0.745 (0.017) 0.169 (0.046)
RFR-WWANet 0.742 (0.016) 0.167 (0.047)
5.3.5与对比方法的显著性检测
为验证RFR-WWANet相比于对比算法取得了显著性的改进,本章将其结果 与对比方法配对,进行成对 t 检验。从结果的 p 值阐述 RFR-WWANet 在性能上 改进的显著性。表5.4展示了经成对t检验之后的p值。在WORD数据集的检验 结果中,RFR-WWANet在Dice指标和HD95指标上所表现的性能都取得了显著 性的改进(p值小于0.05)。在BTCV数据集上,RFR-WWANet在除deedsBCV 外的Dice指标以及HD95指标的结果上都取得了显著性的改进。由于deedsBCV 是迭代优化的配准算法,数据是否见过其优化过程没有影响,该算法始终按照最 优的方向优化、求解。而对于RFR-WWANet来说,变形场的预测需要按照学习 过的模型权重进行。所以,两个模型的配准结果相近,检验结果表明的显著性不 明显。
表5.4成对亡检验的q值结果
SyN DB CM VM TM ST
Dice 5.75e-8 1.79e-4 5.16e-23 3.86e-21 5.08e-12 3.52e-11
WORD
HD95 7.37e-5 4.42e-3 1.07e-9 6.91e-8 2.56e-3 5.45e-5
Dice 2.68e-7 1.42e-1 1.07e-8 6.20e-10 1.90e-4 8.94e-3
BTCV
HD95 4.91e-2 1.66e-1 4.23e-6 5.81e-4 1.02e-3 1.05e-2
5.3.6模型复杂度对比
由于基于 CNN 的模型的参数量通常比基于 Transformer 的模型少得多,因 此本节仅统计基于Transformer的模型的参数。三个基于Transformer的模型参数 如表5.5所示。SymTrans是一种针对模型计算成本优化的方法,因此它包含最少 的参数和 FLOP 数。与同样基于 Swin Transformer 的 TransMorph 相比,提出的 RFR-WWANet模型多了 1.4 M的参数和96.9 G的FLOP数。由于本章提出的方 法在每个 WWA 模块中使用了两个 MLP 层,导致参数和 FLOP 数显著的增加。 尽管提出的方法具有更大的模型参数和 FLOP 数,但所提出的方法仅比 TransMorph 的参数增加了 2.7%,并且在配准精度方面产生了更显著的改进。这 表明所提出的模型可以增加较少的计算资源实现更具竞争力的配准质量。
88
表5.5基于Transformer的参数及模型复杂度对比
Method Parameters (M) FLOPs (G)
TransMorph 46.689 300.645
SymTrans 16.05 120.056
RFR-WWANet 47.99 397.547
5.3.7 消融实验结果分析
为验证提出的模块在 RFR-WWANet 中的有效性,本章进行消融实验。首先 删除恢复特征分辨率分支和WWA以统计基本模型的性能,即表5.6中“w/o R.B. and WWA"。图5.1中所示的两个patch扩展层被替换为两个卷积层。这两个卷 积层卷积核大小为 1,步幅为 1。这些卷积层用于压缩从 SCPE 输出的特征表示 的通道数,以便输出特征表示的通道数可以与解码器中的卷积层的输入通道数相 匹配。然后本节分别删除特征恢复分支和WWA模块,分别表示为“w/o R.B.” 和“w/o WWA”。由于“w/o R.B."和“w/o R.B. and WWA”是使用卷积核大小 为1的额外卷积层进行特征通道缩减的。因此,不统计这些额外的卷积层的参数 和FLOP数。表5.6所示的对比结果表明,特征分比率恢复分支和WWA的设计 都是有效的。将“w/o R.B. and WWA"与“w/o WWA"进行比较,这些结果表明 特征恢复分支产生的参数和FLOP量都很少。“w/o R.B. and WWA”和“w/o R.B." 之间的对比表明,WWA模块将参数和FLOP的数量分别增加了近0.9M和0.001G 结合 Dice 指标结果和消融实验的结果进行比较,证明特征分辨率恢复分支和 WWA可以在生成少量参数和FLOP数的同时,能够有效的提高可变形配准模型 的性能。
表5.6消融实验结果
Model Dice Parameters (M) FLOPs(G)
w/o R.B. and WWA 0.600 47.06 395.734
w/o R.B. 0.602 47.945 395.736
w/o WWA 0.607 47.106 397.546
RFR-WWANet 0.612 47.99 397.547
图5.7 注意力矩阵示例
为展示WWA的注意力计算的结果,对WWA输出的窗口序列进行可视化。
图5.7是在 1/8 阶段中的每个窗口特征图示例,横轴表示每个窗口含有 48个元
素,纵轴表示每个窗口有192个通道的特征。其中,每一行表示一个窗口,即经
90
Swin Transformer窗口划分操作之后的一个窗口特征。本章中,由于窗口大小设 置为(6,4,2),所以每一个窗口含有的元素为48个。(a)为输入WWA前的特征 图,(b)为经WWA加权计算后的特征图,(c)为加权后的特征图与输入前的特征 图商的矩阵(表示整体加权后的差异)。通过图5.7可以看到经过WWA特征的 每个通道、每个窗口的值发生了改变,并且颜色条表明了特征值在该窗口中特征 值变化的幅度。输入前后的特征图的商矩阵的颜色也表明了针对每个窗口在不同 通道上的特征赋予了不同的权重。因此,该可视化表明了 WWA模块能够构建窗 口间的关系,在全局范围内动态的为每个输入的窗口内不同通道上的特征加权, 从而实现模型的全局范围内感知。
5.4本章小结
针对体素对应复杂、变形困难的腹腔图像,本章基于Swin Transformer提出 针对腹腔的配准模型。然而,由于Transformer自身的大参数量以及模型复杂度, Transformer在用于图像配准的U型模型中,图像被分成1/4分辨率级的图像特 征输入到Transformer模块中。这种粗粒度的输入导致Transformer在建模时缺乏 细粒度的特征信息,其输出的特征表示会丢失密集变形场预测时所必需的细粒度 空间信息。此外,Swin Transformer的构建全局内窗口之间的信息交互不灵活, 会限制 Transformer 远距离语义相关性的建模能力。为解决以上问题,本章提出 了一种基于 Swin Transformer 的无监督可变形图像配准模型 RFR-WWANet 。 RFR-WWANet中的特征恢复分支可以将Swin Transformer的输出特征图的分辨 率恢复到更高分辨率阶段,以提高模型的深度特征表达能力,提升 Swin Transformer 在模型中的贡献。提出的 WWA 注意力机制建立了在全局范围内窗 口间交互,提升模型在全局范围内的感知能力。
为了验证提出的RFR-WWANet模型的性能,在3D上腹部CT图像上进行 了实验。与基于深度学习的无监督非线性配准模型 VoxelMorph、CycleMorph、 SymTrans、TransMorph,以及传统方法SyN与deedsBCV的实验结果表明:在上 腹腔CT影像数据集WORD与BTCV 上, RFR-WWANet在平均Dice指标与平 均HD95距离上取得了最好的配准结果;参数量与模型复杂度对比结果表明了与 SymTrans以及TransMorph方法相比,提出的RFR-WWANet在不增长较多的参
数情况下就可以得到较好的配准精度;消融实验表明提出的RFR-WWANet中的 特征分辨率恢复分支的设计是有效的,并且 WWA 注意力机制能够有效的构建 Swin Transformer 中窗口间关联。
92
第6 章 总结与展望
6.1工作总结
随着医疗需求的增长和人工智能技术的飞速发展,人们记录和存储了大量的 医学影像数据。这些影像数据涵盖了许多具有研究价值的信息。然而,这些医学 影像数据由于个体间差异、个体姿势及位置差异、成像设备间差异导致数据形态 及设备成像强度差异大,难以进行批量的统计分析。此外,精准医疗要求对不同 模态、不同时间、不同维度的受体间的影像转换到统一空间坐标中,实现空间变 换,从而使影像中对应的信息在同一位置上达到一致匹配来进行分析,需要使用 配准技术对医学影像进行处理,以将影像对齐到指定坐标中。
有无监督的基于深度学习的医学影像配准模型的被提出,揭示了利用深度学 习技术可以在短时间内预存出变形场,并且也都取得了不错的配准精度。基于以 上优点,基于深度学习的配准技术正在成为传统医学配准的方法的有力竞争者, 但是仍然存在一些不足:(1)忽略影像各自的独立解剖空间信息系、使用全局 正则化训练模型导致模型过/欠约束;(2)基于卷积 CNN 的配准模型感受野受 限从而影像模型感知远距离空间关系;(3)基于Transformer的配准模型只对医 学影像的低分辨率特征建模并输出低分辨率特征到解码器中,影响 Transformer 在配准模型中的贡献,并且Swin Transformer的窗口划分方式固定,不能建立全 局范围窗口的关联。
针对以上问题,本文展开了以下三方面的研究:
(1)针对忽略影像各自的独立解剖空间信息系、使用全局正则化训练模型 导致模型过/欠约束的问题,在第三章提出分离编码及折叠校正的孪生无监督网 络SEN+FCB。该章提出了一种分离编码的无监督非线性配准模型SEN,对两幅 医学图像分别进行特征提取再融合。同时,提出折叠校正模块FCB学习位移场 中的折叠并校正。将提出算法在心脏超声数据集与3D大脑MR影像数据集上进 行实验。通过与 4种可变形医学图像配准方法相比,实验结果表明了 SEN+FCB 模型算法在配准精度和校正变形场折叠上的有效性。
(2)针对基于 CNN 的配准模型感受野受限从而影响配准模型感知远距离 空间关系,本文第四章提出基于Transformer的对称无监督图像配准模型
SymTrans。该章提出了基于卷积的高效自注意力模块CEMSA用来捕获上下文特 征以及减少语义歧义。基于提出的 CEMSA 的 Transformer 模块,该章构建了对 称的Transformer配准模型SymTrans。在3D大脑MR影像数据集上的实验结果 与6种可变形医学图像配准算法的对比,表明了 SymTrans模型的高效性。消融 实验表明提出的对称的Transformer模型结构的有效性。
(3)针对基于Transformer的配准模型只对医学影像的高维度的特征建模并 输出同分辨率的特征,使 Transformer 无法贡献细粒度的语义信息,并且 Swin Transformer 的窗口划方式不灵活,无法动态的建立全局范围窗口特征关联的问 题,第五章提出了 RFR-WWANet模型。首先,提出特征分辨率恢复的模型RFRNet, 模型中Swin Transformer模块能够输出更细粒度的特征信息到解码器,改善Swin Transformer在模型中的贡献。然后提出加权窗口注意力机制WWA,用于构建全 局范围窗口间的信息交互,实现 Swin Transformer 在全局范围内的感知。在 3D 腹部CT影像数据集上的实验,与通过与6种可变形医学图像配准算法相比,验 证了提出的RFR-WWANet的高效。消融实验表明所提出的RFRNet与WWA是 有效的。
本文提出的三个基于深度学习的无监督可变形配准算法在真实的医学影像 数据及上进行了大量的实验。实验结果表明,与多个代表性的可变形医学影像配 准算法相比,本文提出的算法能够为可变形配准提供高质量的变形场,在变形结 果的统计上获得了优良的配准性能。
6.2研究展望
随着人工智能在医疗行业的发展,迫切需要应用人工智能技术在医学影像配 准中,来辅助例如精准医疗、疾病分析等工作。本文重点讨论了在基于无监督单 模态的可变形配准模型的研究。在未来的研究工作中,有如下3 个研究方向的扩 展:
(1)对于复杂器官的变形需要大变形场的生成,需要多尺度配准模型的研 究来扩大变形场的范围从而提供大位移的医学图像配准。未来拟从多尺度方向开 展大变形预测的研究。
(2)对于多模态的医学影像含有不同的成像信息,对于从多角度分析解剖
94
结构的病症及治疗至关重要,未来研究拟进行多模态影像配准以实现多模态影像 间解剖信息的对齐的研究。
(3)目前医学图像在配准时没有一个通用的配准模型,针对不同器官或是 成像对象都需要进行模型的重新训练,这是由于现有配准模型无法构建一个深层 次的、高维的通用特征,无法做到像NLP或是其他CV任务中一样具有预训练 模型的方式来减少模型训练的开销。未来拟开展关于通用医学图像配准模型构建 的研究。
参考文献
[1]Crum W R, Hartkens T, Hill D.Non-rigid image registration: theory and practice[J].The British journal of radiology,2004, 77 (suppl_2): S140-S153.
[2]Huang X, Ren J, Guiraudon G, et al.Rapid dynamic image registration of the beating heart for diagnosis and surgical navigation[J].IEEE transactions on medical imaging,2009, 28 (11): 1802-1814.
[3]Ni H, Tan C, Feng Z, et al.A robust image registration interface for large volume brain atlas[J].Scientific reports,2020, 10 (1): 1-16.
[4]Sergejeva M, Papp E A, Bakker R, et al.Anatomical landmarks for registration of experimental image data to volumetric rodent brain atlasing templates[J].Journal of neuroscience methods,2015, 240: 161-169.
[5]Goldowitz D.Allen Reference Atlas. A Digital Color Brain Atlas of the C57BL/6J Male Mouse-by HW Dong[J].Genes, Brain and Behavior,2010, 9 (1): 128-128.
[6]Li A, Gong H, Zhang B, et al.Micro-optical sectioning tomography to obtain a high- resolution atlas of the mouse brain[J].Science,2010, 330 (6009): 1404-1408.
[7]Noor M B T, Zenia N Z, Kaiser M S, et al.Application of deep learning in detecting neurological disorders from magnetic resonance images: a survey on the detection of Alzheimer's disease, Parkinson's disease and schizophrenia[J].Brain informatics,2020, 7 (1): 1-21.
[8]Shamonin D P, Bron E E, Lelieveldt B P, et al.Fast parallel image registration on CPU and GPU for diagnostic classification of Alzheimer's disease[J].Frontiers in neuroinformatics,2014, 7: 50.
[9]Shams R, Xiao Y, Hebert F, et al.Assessment of rigid registration quality measures in ultrasound-guided radiotherapy[J].IEEE transactions on medical imaging,2017, 37 (2): 428-437.
[10]Ireland R H, Dyker K E, Barber D C, et al.Nonrigid image registration for head and neck cancer radiotherapy treatment planning with PET/CT[J].International Journal of Radiation Oncology* Biology* Physics,2007, 68 (3): 952-957.
96
[11]Tan M, Li Z, Qiu Y, et al.A new approach to evaluate drug treatment response of ovarian cancer patients based on deformable image registration[J].IEEE transactions on medical imaging,2015, 35 (1): 316-325.
[12]Alam F, Rahman S U, Ullah S, et al.Medical image registration in image guided surgery: Issues, challenges and research opportunities[J].Biocybernetics and Biomedical Engineering,2018, 38 (1): 71-89.
[13]Kavoussi N L, Pitt B, Ferguson J M, et al.Accuracy of touch-based registration during robotic image-guided partial nephrectomy before and after tumor resection in validated phantoms[J].Journal of Endourology,2021, 35 (3): 362-368.
[14]Machado I, Toews M, Luo J, et al.Non-rigid registration of 3D ultrasound for neurosurgery using automatic feature detection and matching[J].International journal of computer assisted radiology and surgery,2018, 13 (10): 1525-1538.
[15]Teatini A, Perez De Frutos J, Eigl B, et al.Influence of sampling accuracy on augmented reality for laparoscopic image-guided surgery[J].Minimally invasive therapy & allied technologies,2021, 30 (4): 229-238.
[16]Blendowski M, Heinrich M P.Combining MRF-based deformable registration and deep binary 3D-CNN descriptors for large lung motion estimation in COPD patients[J].International journal of computer assisted radiology and surgery,2019, 14 (1): 43-52.
[17]Heinrich M P, Jenkinson M, Brady M, et al.MRF-Based Deformable Registration and Ventilation Estimation of Lung CT[J].IEEE Transactions on Medical Imaging,2013, 32 (7): 1239-1248.
[18]Mendes Pereira L, Wech T, Weng A, et al. UTE- SEN CEFUL: first results for 3D high-resolution lung ventilation imaging[J].Magnetic resonance in medicine,2019, 81
(4): 2464-2473.
[19]De Vos B D, Berendsen F F, Viergever M A, et al.A deep learning framework for unsupervised affine and deformable image registration[J].Medical Image Analysis,2019, 52: 128-143.
[20]Pan J, Rueckert D, Kustner T, et al. Efficient image registration network for non- rigid cardiac motion estimation[C].International Workshop on Machine Learning for
Medical Image Reconstruction,2021: 14-24.
[21]Shi W, Zhuang X, Wang H, et al.A comprehensive cardiac motion estimation framework using both untagged and 3-D tagged MR images based on nonrigid registration[J].IEEE transactions on medical imaging,2012, 31 (6): 1263-1275.
[22]Wiputra H, Chan W X, Foo Y Y, et al.Cardiac motion estimation from medical images: a regularisation framework applied on pairwise image registration displacement fields[J].Scientific reports,2020, 10 (1): 1-14.
[23]Liang X, Yin F-F, Wang C, et al.A robust deformable image registration enhancement method based on radial basis function[J].Quantitative imaging in medicine and surgery,2019, 9 (7): 1315.
[24]Zagorchev L, Goshtasby A.A comparative study of transformation functions for nonrigid image registration[J].IEEE transactions on image processing,2006, 15 (3): 529-538.
[25]Ji H, Li Y, Dong E, et al.A non-rigid image registration method based on multilevel B-spline and L2-regularization[J].Signal, Image and Video Processing,2018, 12
(6): 1217-1225.
[26]Johnson H J, Christensen G E.Consistent landmark and intensity-based image registration[J].IEEE transactions on medical imaging,2002, 21 (5): 450-461.
[27]Thirion J-P.Image matching as a diffusion process: an analogy with Maxwell's demons[J].Medical image analysis,1998, 2 (3): 243-260.
[28]Vercauteren T, Pennec X, Perchant A, et al.Diffeomorphic demons: efficient nonparametric image registration[J].NeuroImage,2009, 45 (1): S61-S72.
[29]Lan S, Guo Z, You J.Non-rigid medical image registration using image field in Demons algorithm[J].Pattern Recognition Letters,2019, 125: 98-104.
[30]Beg M F, Miller M I, Trouve A, et al.Computing large deformation metric mappings via geodesic flows of diffeomorphisms[J].International journal of computer vision,2005, 61 (2): 139-157.
[31]Shen Z, Vialard F-X, Niethammer M.Region-specific diffeomorphic metric mapping[J].Advances in Neural Information Processing Systems,2019, 32.
[32]Avants B B, Epstein C L, Grossman M, et al.Symmetric diffeomorphic image 98
registration with cross-correlation: evaluating automated labeling of elderly and neurodegenerative brain[J].Medical image analysis,2008, 12 (1): 26-41.
[33]Otter D W, Medina J R, Kalita J K.A survey of the usages of deep learning for natural language processing[J].IEEE transactions on neural networks and learning systems,2020, 32 (2): 604-624.
[34]Young T, Hazarika D, Poria S, et al.Recent trends in deep learning based natural language processing[J].ieee Computational intelligenCe magazine,2018, 13 (3): 55-75.
[35]Liu W, Wang Z, Liu X, et al.A survey of deep neural network architectures and their applications[J].Neurocomputing,2017, 234: 11-26.
[36]O'mahony N, Campbell S, Carvalho A, et al. Deep learning vs. traditional computer vision[C].Science and information conference,2019: 128-144.
[37]Voulodimos A, Doulamis N, Doulamis A, et al.Deep learning for computer vision: A brief review[J].Computational intelligence and neuroscience,2018, 2018.
[38]Cao Y, Geddes T A, Yang J Y H, et al.Ensemble deep learning in bioinformatics[J].Nature Machine Intelligence,2020, 2 (9): 500-508.
[39]Min S, Lee B, Yoon S.Deep learning in bioinformatics[J].Briefings in bioinformatics,2017, 18 (5): 851-869.
[40]Gu J, Wang Z, Kuen J, et al.Recent advances in convolutional neural networks[J].Pattern recognition,2018, 77: 354-377.
[41]Yamashita R, Nishio M, Do R K G, et al.Convolutional neural networks: an overview and application in radiology[J].Insights into imaging,2018, 9 (4): 611-629.
[42]Chen J, Lu Y, Yu Q, et al.Transunet: Transformers make strong encoders for medical image segmentation[J].arXiv preprint arXiv:2102.04306,2021.
[43]Gibson E, Giganti F, Hu Y, et al.Automatic multi-organ segmentation on abdominal CT with dense V-networks[J].IEEE transactions on medical imaging,2018, 37 (8): 1822-1834.
[44]He J, Deng Z, Zhou L, et al. Adaptive pyramid context network for semantic segmentation[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019: 7519-7528.
[45]Isensee F, Jaeger P F, Kohl S a A, et al.nnU-Net: a self-configuring method for
deep learning-based biomedical image segmentation[J].Nature methods,2021, 18 (2): 203-211.
[46]Jha D, Smedsrud P H, Riegler M A, et al. Resunet++: An advanced architecture for medical image segmentation[C].2019 IEEE International Symposium on Multimedia (ISM),2019: 225-2255.
[47]Li F, Li W, Shu Y, et al.Multiscale receptive field based on residual network for pancreas segmentation in CT images[J].Biomedical Signal Processing and Control,2020, 57: 101828.
[48]Li S, Sui X, Luo X, et al. Medical Image Segmentation using Squeeze-and- Expansion Transformers[C].IJCAI,2021.
[49]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C].Medical Image Computing and Computer-Assisted Intervention -- MICCAI 2015,2015: 234-241.
[50]Yan X, Tang H, Sun S, et al. After-unet: Axial fusion Transformer unet for medical image segmentation[C].Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2022: 3971-3981.
[51]Zhou Z, Siddiquee M M R, Tajbakhsh N, et al.: Unet++: A nested u-net architecture for medical image segmentation,Deep learning in medical image analysis and multimodal learning for clinical decision support: Springer,2018: 3-11.
[52]Zhou Z, Siddiquee M M R, Tajbakhsh N, et al.Unet++: Redesigning skip connections to exploit multiscale features in image segmentation[J].IEEE transactions on medical imaging,2019, 39 (6): 1856-1867.
[53]Cao Z, Duan L, Yang G, et al.An experimental study on breast lesion detection and classification from ultrasound images using deep learning architectures[J].BMC medical imaging,2019, 19 (1): 1-9.
[54]Yan K, Wang X, Lu L, et al.DeepLesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning[J].Journal of medical imaging,2018, 5 (3): 036501.
[55]Kang W, Lin L, Zhang B, et al.Multi-model and multi-slice ensemble learning architecture based on 2D convolutional neural networks for Alzheimer's disease 100
diagnosis[J].Computers in Biology and Medicine,2021, 136: 104678.
[56]Murugan S, Venkatesan C, Sumithra M, et al.DEMNET: a deep learning model for early diagnosis of Alzheimer diseases and dementia from MR images[J].IEEE Access,2021, 9: 90319-90329.
[57]Abdar M, Fahami M A, Chakrabarti S, et al.BARF: A new direct and cross-based binary residual feature fusion with uncertainty-aware module for medical image classification[J].Information Sciences,2021, 577: 353-378.
[58]Zhuang J, Cai J, Wang R, et al. Deep kNN for medical image classification[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2020: 127-136.
[59]Yang X, Kwitt R, Styner M, et al.Quicksilver: Fast predictive image registration- a deep learning approach[J].NeuroImage,2017, 158: 378-396.
[60]Cao X, Yang J, Zhang J, et al. Deformable image registration based on similarity- steered CNN regression[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2017: 300-308.
[61]Fan J, Cao X, Yap P-T, et al.BIRNet: Brain image registration using dualsupervised fully convolutional networks[J].Medical image analysis,2019, 54: 193-206.
[62]Sokooti H, Vos B D, Berendsen F, et al. Nonrigid image registration using multiscale 3D convolutional neural networks[C].International conference on medical image computing and computer-assisted intervention,2017: 232-239.
[63]Zheng Y, Sui X, Jiang Y, et al.SymReg-GAN: symmetric image registration with generative adversarial networks[J].IEEE transactions on pattern analysis and machine intelligence,2021, 44 (9): 5631-5646.
[64]Xu Z, Niethammer M. DeepAtlas: Joint semi-supervised learning of image registration and segmentation[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2019: 420-429.
[65]Shao W, Bhattacharya I, Soerensen S J, et al. Weakly Supervised Registration of Prostate MRI and Histopathology Images[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2021: 98-107.
[66]Wang X, Mao L, Huang X, et al.Multimodal MR image registration using weakly
101 supervised constrained affine network[J].Journal of Modern Optics,2021, 68 (13): 679688.
[67]Blendowski M, Hansen L, Heinrich M P.Weakly-supervised learning of multimodal features for regularised iterative descent in 3D image registration[J].Medical image analysis,2021, 67: 101822.
[68]Wodzinski M. Semi-supervised Multilevel Symmetric Image Registration Method for Magnetic Resonance Whole Brain Images[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2021: 186-191.
[69]Vos B D D, Berendsen F F, Viergever M A, et al.: End-to-end unsupervised deformable image registration with a convolutional neural network,Deep learning in medical image analysis and multimodal learning for clinical decision support: Springer,2017: 204-212.
[70]Lv J, Yang M, Zhang J, et al.Respiratory motion correction for free-breathing 3D abdominal MRI using CNN-based image registration: a feasibility study[J].The British journal of radiology,2018, 91: 20170788.
[71]Balakrishnan G, Zhao A, Sabuncu M R, et al. An Unsupervised Learning Model for Deformable Medical Image Registration[C].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018.
[72]Balakrishnan G, Zhao A, Sabuncu M R, et al.VoxelMorph: a learning framework for deformable medical image registration[J].IEEE transactions on medical imaging,2019, 38 (8): 1788-1800.
[73]Zhao S, Dong Y, Chang E I-C, et al. Recursive Cascaded Networks for Unsupervised Medical Image Registration[C].Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV),2019.
[74]Dalca A V, Balakrishnan G, Guttag J, et al.Unsupervised learning of probabilistic diffeomorphic registration for images and surfaces[J].Medical image analysis,2019, 57: 226-236.
[75]Liu R, Li Z, Zhang Y, et al. Bi-level probabilistic feature learning for deformable image registration[C].Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence,2021: 723-730.
102
[76]Hoopes A, Hoffmann M, Fischl B, et al. Hypermorph: Amortized hyperparameter learning for image registration[C].International Conference on Information Processing in Medical Imaging,2021: 3-17.
[77]Mok T, Chung A. Fast Symmetric Diffeomorphic Image Registration with Convolutional Neural Networks[C].2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020.
[78]Kim B, Dong H K, Park S H, et al.CycleMorph: Cycle consistent unsupervised deformable image registration[J].Medical Image Analysis,2021, 71 (1): 102036.
[79]Zhang L, Zhou L, Li R, et al. Cascaded Feature Warping Network for Unsupervised Medical Image Registration[C].2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI),2021: 913-916.
[80]Mok T C, Chung A. Large deformation diffeomorphic image registration with laplacian pyramid networks[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2020: 211-221.
[81]Wang W, Xie E, Li X, et al. Pyramid vision Transformer: A versatile backbone for dense prediction without convolutions[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 568-578.
[82]Lu Z, Li J, Liu H, et al. Transformer for single image super- resolution[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 457-466.
[83]Li W, Liu H, Tang H, et al. Mhformer: Multi-hypothesis Transformer for 3d human pose estimation[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 13147-13156.
[84]Strudel R, Garcia R, Laptev I, et al. Segmenter: Transformer for semantic segmentation[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 7262-7272.
[85]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C].Advances in neural information processing systems,2017: 5998-6008.
[86]Hatamizadeh A, Tang Y, Nath V, et al. Unetr: Transformers for 3d medical image segmentation[C].Proceedings of the IEEE/CVF Winter Conference on Applications of
103 Computer Vision,2022: 574-584.
[87]Gao Y, Zhou M, Metaxas D N. UTNet: a hybrid Transformer architecture for medical image segmentation[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2021: 61-71.
[88]Xie Y, Zhang J, Shen C, et al. Cotr: Efficiently bridging cnn and Transformer for 3d medical image segmentation[C].International conference on medical image computing and computer-assisted intervention,2021: 171-180.
[89]Chen J, He Y, Frey E C, et al. ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image Registration,2021.
[90]Song L, Liu G, Ma M.TD-Net: unsupervised medical image registration network based on Transformer and CNN[J].Applied Intelligence,2022: 1-9.
[91]Shi J, He Y, Kong Y, et al. XMorpher: Full Transformer for Deformable Medical Image Registration via Cross Attention[C].International Conference on Medical Image Computing and Computer-Assisted Intervention,2022: 217-226.
[92]Yang T, Bai X, Cui X, et al.TransDIR: Deformable imaging registration network based on Transformer to improve the feature extraction ability[J].Medical Physics,2022, 49 (2): 952-965.
[93]Zhang Y, Pei Y, Zha H. Learning Dual Transformer Network for Diffeomorphic Registration[C].International Conference on Medical Image Computing and Computer- Assisted Intervention,2021: 129-138.
[94]Liu Z, Hu H, Lin Y, et al. Swin Transformer v2: Scaling up capacity and resolution[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 12009-12019.
[95]Liu Z, Lin Y, Cao Y, et al. Swin Transformer: Hierarchical vision Transformer using shifted windows[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 10012-10022.
[96]Chen J, Frey E C, He Y, et al.Transmorph: Transformer for unsupervised medical image registration[J].Medical Image Analysis,2022, 82: 102615.
[97]Zhu Y, Lu S. Swin-VoxelMorph: A Symmetric Unsupervised Learning Model for Deformable Medical Image Registration Using Swin Transformer[C].Medical 104
Image Computing and Computer Assisted Intervention -- MICCAI 2022,2022: 78-87.
[98]Lou A, Lim D, Katsman I, et al.Neural manifold ordinary differential equations[J].Advances in Neural Information Processing Systems,2020, 33: 1754817558.
[99]Dupont E, Doucet A, Teh Y W.Augmented neural odes[J].Advances in Neural Information Processing Systems,2019, 32.
[100]Chen R T, Rubanova Y, Bettencourt J, et al.Neural ordinary differential equations[J].Advances in neural information processing systems,2018, 31.
[101]Wu Y, Jiahao T Z, Wang J, et al. NODEO: A Neural Ordinary Differential Equation Based Optimization Framework for Deformable Image Registration[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 20804-20813.
[102]Kim B, Ye J C. Diffusion deformable model for 4D temporal medical image generation[C].International Conference on Medical Image Computing and Computer- Assisted Intervention,2022: 539-548.
[103]Xu J, Chen E Z, Chen X, et al. Multi-scale neural odes for 3d medical image registration[C].International Conference on Medical Image Computing and Computer- Assisted Intervention,2021: 213-223.
[104]Jiang C, Huang J, Tagliasacchi A, et al.Shapeflow: Learnable deformation flows among 3d shapes[J].Advances in Neural Information Processing Systems,2020, 33: 9745-9757.
[105]Jaderberg M, Simonyan K, Zisserman A.Spatial Transformer networks[J].Advances in neural information processing systems,2015, 28.
[106]Studholme C, Hill D L, Hawkes D J.An overlap invariant entropy measure of 3D medical image alignment[J].Pattern recognition,1999, 32 (1): 71-86.
[107]Viola P, Wells Iii W M.Alignment by maximization of mutual information[J].International journal of computer vision,1997, 24 (2): 137-154.
[108]Simonovsky M, Gutierrez-Becker B, Mateus D, et al. A deep metric for multimodal registration[C].International conference on medical image computing and computer-assisted intervention,2016: 10-18.
105
[109]Maes F, Collignon A, Vandermeulen D, et al.Multimodality image registration by maximization of mutual information[J].IEEE transactions on Medical Imaging,1997, 16 (2): 187-198.
[110]Li G, Ye Y, Zhou M, et al.Multi-resolution transmission image registration based on “Terrace Compression Method” and normalized mutual information[J].Chemometrics and Intelligent Laboratory Systems,2022, 223: 104529.
[111]Chen J, Li Y, Du Y, et al.Generating anthropomorphic phantoms using fully unsupervised deformable image registration with convolutional neural networks[J].Medical physics,2020, 47 (12): 6366-6380.
[112]Wang Z, Bovik A C, Sheikh H R, et al.Image quality assessment: from error visibility to structural similarity[J].IEEE transactions on image processing,2004, 13 (4): 600-612.
[113]Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press,2016.
[114]Lecun Y, Bengio Y, Hinton G.Deep learning[J].nature,2015, 521 (7553): 436-444.
[115]Svozil D, Kvasnicka V, Pospichal J.Introduction to multi-layer feed-forward neural networks[J].Chemometrics and intelligent laboratory systems,1997, 39 (1): 4362.
[116]Lecun Y, Bottou L, Bengio Y, et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998, 86 (11): 2278-2324.
[117]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2016: 770-778.
[118]He K, Gkioxari G, Dollar P, et al. Mask r-cnn[C].Proceedings of the IEEE international conference on computer vision,2017: 2961-2969.
[119]Girshick R. Fast r-cnn[C].Proceedings of the IEEE international conference on computer vision,2015: 1440-1448.
[120]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2014: 580-587.
[121]Luo W, Li Y, Urtasun R, et al.Understanding the effective receptive field in deep 106 convolutional neural networks[J].Advances in neural information processing systems,2016, 29.
[122]Mikolov T, Chen K, Corrado G, et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.
[123]Devlin J, Chang M-W, Lee K, et al.Bert: Pre-training of deep bidirectional Transformers for language understanding[J].arXiv preprint arXiv:1810.04805,2018.
[124]Li Y, Yao T, Pan Y, et al.Contextual Transformer networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022.
[125]Jin Y, Han D, Ko H.Trseg: Transformer for semantic segmentation[J].Pattern Recognition Letters,2021, 148: 29-35.
[126]Misra I, Girdhar R, Joulin A. An end-to-end Transformer model for 3d object detection[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 2906-2917.
[127]Zou C, Wang B, Hu Y, et al. End-to-end human object interaction detection with hoi Transformer[C].Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2021: 11825-11834.
[128]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[C].International Conference on Learning Representations,2020.
[129]Mok T C, Chung A. Affine Medical Image Registration with Coarse-to-Fine Vision Transformer[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022: 20835-20844.
[130]Hu X, Kang M, Huang W, et al. Dual-stream pyramid registration network[C].International Conference on Medical Image Computing and Computer- Assisted Intervention,2019: 382-390.
[131]Jud C, Mori N, Bitterli B, et al. Bilateral regularization in reproducing kernel hilbert spaces for discontinuity preserving image registration[C].International Workshop on Machine Learning in Medical Imaging,2016: 10-17.
[132]Ouyang D, He B, Ghorbani A, et al.Video-based AI for beat-to-beat assessment of cardiac function[J].Nature,2020, 580 (7802): 252-256.
107
[133]Marcus D S, Wang T H, Parker J, et al.Open Access Series of Imaging Studies (OASIS): cross-sectional MRI data in young, middle aged, nondemented, and demented older adults[J].Journal of cognitive neuroscience,2007, 19 (9): 1498-1507.
[134]Fischl B.FreeSurfer[J].NeuroImage,2012, 62 (2): 774-781.
[135]Paszke A, Gross S, Chintala S, et al.Automatic differentiation in pytorch[J],2017.
[136]Kingma D P, Ba J.Adam: A method for stochastic optimization[J].arXiv preprint arXiv:1412.6980,2014.
[137]Tian C, Xu Y, Zuo W, et al.Coarse-to-fine CNN for image super- resolution[J].IEEE Transactions on Multimedia,2021, 23: 1489-1502.
[138]Lin X, Zou Q, Xu X. Action-guided attention mining and relation reasoning network for human-object interaction detection[C].Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence,2021: 1104-1110.
[139]Xu K, Wen L, Li G, et al.Learning self-supervised space-time CNN for fast video style transfer[J].IEEE Transactions on Image Processing,2021, 30: 2501-2512.
[140]Isensee F, Jaeger P F, Kohl S A, et al.nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J].Nature methods,2021, 18 (2): 203211.
[141]Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision Transformers[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 22-31.
[142]Wu X, Hu Z, Sheng L, et al. Styleformer: Real-time arbitrary style transfer via parametric style composition[C].Proceedings of the IEEE/CVF International Conference on Computer Vision,2021: 14618-14627.
[143]Wang H, Cao P, Wang J, et al. Uctransnet: rethinking the skip connections in u- net from a channel-wise perspective with Transformer[C].Proceedings of the AAAI Conference on Artificial Intelligence,2022: 2441-2449.
[144]Avants B B, Tustison N J, Song G, et al.A reproducible evaluation of ANTs similarity metric performance in brain image registration[J].Neuroimage,2011, 54 (3): 2033-2044.
108
[145]Dosovitskiy A, Beyer L, Kolesnikov A, et al.An image is worth 16x16 words: Transformers for image recognition at scale[J].arXiv preprint arXiv:2010.11929,2020.
[146]Ma M, Xu Y, Song L, et al.Symmetric Transformer-based network for unsupervised image registration[J].Knowledge-Based Systems,2022: 109959.
[147]Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2020.
[148]Woo S, Park J, Lee J-Y, et al. Cbam: Convolutional block attention module[C].Proceedings of the European conference on computer vision (ECCV),2018: 3-19.
[149]Luo X, Liao W, Xiao J, et al.WORD: A large scale dataset, benchmark and clinical applicable study for abdominal organ segmentation from CT image[J].Medical Image Analysis,2022: 102642.
[150]Prez-Garca F, Sparks R, Ourselin S.TorchIO: a Python library for efficient loading, preprocessing, augmentation and patch-based sampling of medical images in deep learning[J].Computer Methods and Programs in Biomedicine,2021: 106236.
[151]Taha A A, Hanbury A.An Efficient Algorithm for Calculating the Exact Hausdorff Distance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015, 37 (11): 2153-2163.