1. 网站地图
  2. 设为首页
  3. 关于我们


面向脑部医学影像的多模态融合及疾病辅助诊 断分类方法

发布时间:2023-09-22 16:10
第一章 绪论 1
1.1课题的研究背景和意义 1
1.2国内外研究现状 4
1.3研究内容和实施方案 7
1.4本文的组织结构 8
第二章 基础理论与相关研究 11
2.1多模态医学图像 11
2.2卷积神经网络 13
2.3注意力机制 15
2.4医学图像处理方法 16
2.5本章小结 19
第三章 多模态脑部图像融合网络 21
3.1多模态图像融合网络框架 21
3.2特征提取模块 22
3.3多模态融合策略 24
3.4模型评估实验和结果分析 25
3.5本章小结 31
第四章 脑部疾病辅助诊断分类 33
4.1基于 Dense Net 改进的 SWA-Net 脑部疾病辅助分类模型 33
4.2SWA-Net 分类模型的特征提取及卷积模块设计 36
4.3模型评估实验和结果分析 39
4.4本章小结 42
第五章 结论与展望 43
5.1结论 43
5.2展望 43
参考文献 45
第一章 绪论
1.1课题的研究背景和意义
随着人工智能的快速发展,其已在多个方面为人类生活、工作提供了极大的便利, 甚至取代了一部分属于人类的工作。在人工智能处理的海量数据中,图像数据的占比尤 为可观,这得益于图像作为一种特殊的数据类型,含有可挖掘的大量信息。图像处理是 人工智能中不可分割的一部分,而医学图像作为图像的一大类,其区别于自然图像且具 有极强的应用性,因此近年来也被研究者所关注。医学图像是临床诊疗过程中一种常用 的辅助方法,具有不可忽视的作用,近年来医学成像技术在临床诊断、治疗方案、诊后 复查评价等方面应用的尤为广泛。医学图像是指在医学以及医疗研究过程中,对人体各 部分以非侵入方式取得内部组织影像。如X射线(XRay),计算机断层扫描(Computerized Tomography, CT)图像,正电子发射计算机断层扫描(Positron Emission Tomography, PET)图像,磁共振图像(Megnetic Resonance Imaging, MRI),超声波(Ultrasound) 图像,单光子发射计算机断层扫描( Singlephoton Emission Computed Tomography Imaging, SPECT),和显微镜成像(Microscopy)都是计算机辅助设计(Computer Aided Diagnosis, CAD)中常用的医学图像模式[]。图1-1展示了一些常见类型的医疗图像样例,从左上 到右下横排依次为:X射线,显微图像,CT,MRI,SPECT和PET。
 
图 1-1 各种常见的医学图像示例
医学图像可直接反映人体内部结构,现代医疗诊断大多依靠医学图像分析,医生可 快速查看到患者体内的组织情况,不同的成像方式可以呈现不同部位的解剖特征,便于 医生快速、准确地确定病灶位置并确定诊疗方案。但这种诊疗方式严重依赖于医生的主 观判断以及临床经验,在诊断的过程中往往需要医生长时间的观察、判断,大大降低了 诊断效率。且受目前医学图像成像技术的制约,利用医学图像设备采集患者数据的过程 中,通常会引入噪声信号并产生伪影,导致图像出现低对比度、低质量、高噪声的情况。 而通过预处理后的医学图像各器官的边缘特征会更加清晰,帮助医生更加有效地判断病 灶位置以及疾病情况,提升医生诊疗效率。
随着深度学习技术的不断发展,通过深度学习完成数据分析的方法正在快速增长, 针对医学图像数据集的人工智能研究也愈发快速、准确、可靠。目前医学图像数据处理 任务可分为图像融合、图像分类、图像配准等方面。利用相关医学图像分析技术,对人 体器官、软组织和病变体的位置进行检测、分割提取、三维重建和三维显示,可以有效 地增强临床诊断的效率,并且在术前规划、手术仿真等多种医学研究中起到有效的辅助 作用。影像科医生想要快速、准确的进行疾病和病灶诊断需要长年累月的病例、经验积 累,而目前影像科医生又处于极度短缺状态,因此运用深度学习技术学习处理医学图像 数据集,提高效率和准确率对于医患是十分重要的,对于临床应用也有极大的价值。
由于医学图像多模态的特点和各模态的局限性[2],多模态医学图像融合技术应运而 生,目的是从多个源图像中提取和合成信息,以获得对某个区域或目标的更准确、全面 和可靠的描述。医学图像中的关键信息所占比例很小,而且大多数医学图像中的相同部 位和身体状态非常相似。与自然图像不同,其相似度极高的背景组织的细微变化可能代 表着某种病变。因此,关注医学图像融合的关键医学信息和特征尤为重要。目前大多数 现有模型对于融合特定类型的图像都是有效的,但受限于两模态融合任务。目前医学图 像上多模态的图像融合大多为两模态的融合,并不能满足医生对病灶等信息的所有需求, 并且网络模型可迁移性差。事实上,在病灶精确诊断、治疗计划制定、病灶响应跟踪等 过程中,两模态融合并不总是充足有利的。在实际临床应用的图像处理软件和放疗计划 系统中,也仅限于两模态图像融合。事实上,三模态医学图像的融合尤为重要,各模态 医学影像具有不同的特征,有优势的同时也有相对的局限性。现有的两模态融合技术无 法实现同时区分组织、血流、位置及代谢多个参数,从而导致病灶位置定位失真,辅助 诊断质量不高的问题。而三模态融合在辅助诊疗过程中可以提供更丰富全面的信息,可 同时提供同一位置的代谢、血流、轮廓等多个参数,对病灶位置进行精确定位,提升医
2
生的临床诊疗效率。
图像相较于声音和文本来说传递信息的方式更为直观,图像分类是计算机视觉技术 中最基础的研究内容,也是人工智能不可分割的一部分,图像分类采用图像中提取的不 同特征,根据不同种类的特征进行分类以确定疾病的种类。医学图像处理属于图像处理 的一种,所使用的方法也存在一定的相似性,例如使用一些通用的特征提取方式和机器 学习方法。而基于深度学习的处理方法直接使用少量预处理图像和原始图像,在效果上 比传统的机器学习方法有显著提升。随着医学图像在医生诊断中使用率的大量提高,医 生的工作量急剧增大,进一步加剧了影像科医生短缺的问题,而利用深度学习对医学影 像进行快速辅助疾病诊断分类,可以缓解医生工作压力,同时可以缩短医生的诊疗时间 并提升准确率。目前的一些卷积神经网络的辅助分类准确率甚至优于普通的影像科医生, 并且更善于发现组织中微小的病变,对于一些疾病的早期诊断具有重要意义。
一直以来,为了更早的发现更多致命疾病,研究人员致力于研究一种可以通过数据 驱动的方式来自动化确诊疾病的算法。以慢性神经退行性疾病 [] 阿尔兹海默症
(Alzheimer Disease, AD)为例,其会缓慢导致整个大脑的神经细胞死亡和组织丢失, 并随着时间的推移而恶化。全球每三秒内就会增加一个阿尔兹海默症的患者,其已经成 为美国第六大死亡原因,由于其复杂性与多样性,使用计算机辅助诊断技术进行治疗可 能是唯一快速途径。 MRI、CT 和 PET 扫描包含了关于阿尔茨海默病对大脑结构和功能 的影响的信息。在当前的所有影像学方法中, MRI 对脑解剖结构的显示最清晰、分辨率 最高,可以有效区分阿尔兹海默症的特征,如大脑体积和形状[4]、灰质体积的异常[5]、 皮质萎缩[6]和海马体的萎缩[7]。但是对医生和研究人员来说,需要积累大量的经验才能 不断提高准确率。随着卷积神经网络在自然图像分类任务中的成功应用,许多研究将这 些方法转向医学图像分类和计算机辅助诊断疾病。近十年来,许多基于深度学习方法的 医学图像分类方法不断被提出。然而,这些现有的方法也有一些局限性。它们都直接使 用了为自然图像设计的普通卷积操作,其局部的感受野是有限的。扩张的卷积可以在一 定程度上扩大局部感受野,但也会伴随着大量的信息丢失,因此阿尔兹海默症分类的实 现及其准确性遇到了瓶颈。同时在医学图像分类任务中,仍然会面对弱标签、小样本、 大图像等技术难题。与传统的自然图像相比,医学图像数量大且专业要求高,不能像自 然图像那样给每张图片打上标签。因此,由于没有足够多的打好标签的医学图像数据集, 会使得深度神经网络出现过拟合,难以使用一种分类网络处理多个问题。
1.2国内外研究现状
1.2.1医学图像多模态融合研究现状
两模态医学图像融合起初大多运用传统算法,即基于多尺度变换的融合算法、基于 稀疏表示的融合算法等。基于多尺度变换的融合算法[8]涉及多尺度分解方法和融合策略 的选择,多尺度变换方法有金字塔I9,10】,小波变换[11-13],基于小波变换改进后的轮廓波、 剪切波[“16]和滤波器[17]等。Liu等人[18]在小波变换的基础上提出了一种基于多小波变换 的医学图像融合算法,采用小波系数融合方法实现 PET/CT 融合,低频部分采用梯度融 合,高频部分采用分类融合,获得了较好的结果。 Xi 等人[14]提出了一种基于 3-D 剪切 波和广义高斯模型的医学图像融合方法。通过 3-D 剪切波变换获得序列图像的低频部分 和高频部分,再通过 3-D 剪切波的逆变换获得融合的医学序列图像。多尺度变换时变换 域中融合图像的单个系数中的微小变化可能会导致空间域中的所有像素值发生变化,融 合结果中容易出现噪声,由此研究人员提出了许多有效的基于稀疏表示的融合方法[19,20]。 一般认为,基于稀疏表示的方法比基于多尺度变换的方法具有更好的性能[21,22],使用稀 疏系数作为图像特征, 提取和分离源图像的公共和个体细节特征,并对其分别进行融合。 稀疏表示也具有极强的去噪能力,可以同时对图像进行去噪和融合。由于稀疏编码采用 的是基于图像分块方式,细节保存能力有限,为了解决基于稀疏表示的融合方法的缺点, Liu 等人[21]提出了一种基于点-体素融合方法, 首次将体素卷积稀疏表示引入图像融合领 域。与深度学习技术不同,卷积稀疏表示是为了实现整张图像而非局部图像的稀疏表示, 很好的解决了细节保留问题。
随着深度学习的不断发展,卷积神经网络已被应用于多焦点融合、多曝光融合和可 见光与红外融合、医学图像融合等多种融合问题[23]。 Li 等人[24]将源图像分解为基本部分 和细节部分,然后用加权平均法将基础部分融合,可应用于灰度可见和热红外图像融合、 医学图像融合、多曝光图像融合等。 Ma 等人[25]提出一种双鉴别器的对抗生成网络,它 在不会造成模糊的热辐射信息和可见纹理细节的损失的情况下,还有效地融合了不同分 辨率下的图像。 Kumar 等人[26]利用结构相似性指数作为训练过程中的损失函数,通过量 化每个输入图像对融合图像偏导数的贡献,将颜色编码应用于融合图像的可视化。针对 不同类型的图像融合任务,提出一种无监督、统一的密集连接网络[25],应用权重块获得 两个数据驱动的权重作为特征在不同源图像中的保留度,基于权重的相似性损失用于无
4
监督学习,并应用弹性权重合并来获得适用于多个融合任务的模型。 Zhang 等人[27]提出 一个端到端训练的全卷积融合模型,利用两个卷积层从多个输入图像中提取图像的显著 特征,再根据图像类型选择合适的融合规则,最后通过两个卷积层对融合后的特征进行 重构,得到信息融合图像。 Li 等人[28]提出了基于巢穴连接的网络和空间/通道注意模型 的融合网络。基于嵌套连接的网络可以从多尺度的角度保存输入数据中的大量信息,建 立空间注意模型和通道注意模型,描述了每个空间位置的重要性和每个通道的深度特征。 深度学习方法在某些程度上比传统的融合方法会取得更好的效果,但其并非没有缺点。 神经网络需要大量的数据集进行预训练,可迁移性较差,且训练时需要消耗大量内存与 时间。
由于医学图像本身的特殊性以及与自然图像的差异,大多数研究者都选择用卷积神 经网络来处理融合问题,且大多数医学图像上的多模态图像融合仅限于两模态。 Adam C Riegel^]证明CT-PET融合图像仅在应用于勾画头部大体积肿瘤时比CT给观察者带来显 著差异。相比之下,三模态融合可以同时生成多个参数,例如可区分的组织、血流、新 陈代谢和位置。 Grosu 等人[30]证明 CT-MRI-PET 融合图像比 CT-MRI 能更好地区分术后 变化与脑胶质瘤残留肿瘤,提高肿瘤勾画的准确性。随后 Grosu 等人[31]又证明了 CT-MRI-PET 融合图像可以实现准确的目标定位,并减少脑膜瘤立体定向点阵放射治疗 中观察者之间的差异。Lahoud[32]提出了一种在颜色空间实现的实时图像融合方法,利用 预训练的神经网络生成包含多模态源特征的单幅图像,基于卷积神经网络提取源图像的 深度特征图,生成驱动多模态图像融合过程以获得权重图的融合权重。 Jin 等人[33]提出 了一种基于非下采样剪切波变换和简化的脉冲耦合神经网络的两阶段图像融合策略。目 前在实际临床应用的图像处理软件和放疗计划系统中,也仅限于两模态图像融合。
1.2.2医学图像分类研究现状
计算机视觉辅助医疗诊断是研究界的一个重要课题[34,35]。其医学影像诊断自动化的 能力可以带来更准确和客观的临床评估,以及提高筛查效率和质量控制[36]。计算机视觉 的应用包括胸部X射线[37]、CT扫描[38皿]、MRI分类[41 ]等。由于传统的分类算法要大量 地手动调整图像参数、选择图像特征,因此此类算法并不能实际应用。上世纪七十年代, 计算机辅助诊断出现并主要使用傅里叶变换频谱分析法和共生矩阵的统计分析法来检 测肺尘病人胸部图像中的肺尘症[42]。随后,研究人员使用人工标记的方法确定医学图像 中可能存在感兴趣区域(ROI),并利用不同方法的组合来进行医学图像特征分析和计
5
算。其中主要方法有傅里叶频谱法、几何图像特征法、分形维数和特征集组合。上世纪 八十年代,研究学者[43,44]提出医学影像诊断中最值得研究的方向是图像分类。90 年代后, 基于小波理论的分类方法获得了极大的发展,比如,有学者认为[45]基于小波理论的医学 图像分类方法是医学图像分类的新方向。其中 C.Chen 和 T.Wang 等人[46]提出基于小波理 论的医学图像分析及异常检测。H.Lietal[47]先后提出用马尔可夫随机场和分形模型对胸 部图像进行了肿瘤检测和分类。但是传统的医学图像分类方法不具有科学性和准确性, 另外也在性能方面太过于落后。
进入新世纪以后,随着卷积神经网络在自然图像领域的大踏步发展,其特征学习能 力为人工选取特征提供了替代方法,解决了图像特征选取阶段的昂贵且高耗时的缺点, 其在医学图像分类中也获得了研究者的广泛关注,例如 AD 和肺癌种类的诊断等[48]。一 般来说,患者处于中晚期时才能被诊断患有阿尔茨海默症。因此,早期诊断 AD 使用人 工智能需要灵敏和高效诊断方法[49-51]。但是,利用深度学习的方法由于缺乏预先处理的 医学图像采集和先验知识, AD 的诊断仍然是一个巨大的挑战。近年来, Aderghal 等人 [7]提出了一种数据增强策略适应 MRI 扫描特异性的训练和分类有限的连续的部分。 Lei 等人[52]提出了基于特征的判别学习和典型相关 MRI 和 PET 模式分析。多模态图像有助 于提高 AD 的诊断,但这些多模态结合方法在图像处理中需要花费较长的时间。为了解 决这些问题, Fang 等人[53]提出一个新颖的框架,将三种最先进的深度卷积神经网络与 多模态图像集成起来,用于AD分类,以达到更高的分类精度。ResNet[54]是一种卷积神 经网络,由何等人提出。它具有跨层连接网络,可以大大降低由于网络层增加导致的梯 度消失问题,使得模型构建更深,提高了分类的性能和准确度。DenseNet[55]是另一种深 层次的卷积神经网络,由黄等人于 2017 年提出。与 ResNet 不同的是,它在所有层之间 都有连接,每一层的输入是其前面所有层输出的特征图的合并,使各层之间信息流更加 顺畅,缓解了梯度消失问题。
目前常用的VGGNet[56]、ResNet[54]、DenseNet[55]等深度卷积神经网络,使用不同的 卷积核和网络结构,可以从多个角度提取图像的特征并进行分类。这种方法已经被证明 在分类任务中非常有效,并取得了较好的分类效果[57]。与自然图像不同,医学图像不包 含大量的场景,整张图像都填充着详细特征。因此,高级语义特征和低级语义特征都尤 为重要[58]。关键信息在医学图像中所占比例较小,大多数医学图像中相同的部位和身体 状态非常相似。背景组织高度相似的细微变化可能代表着病变。由于两种图像成像方法 的不同,现有的自然图像分类直接应用于医学图像分类,有一定的局限性,例如使用针 6
对自然图像特征设计的普通卷积运算。它的感受野大小有限,缺乏跨通道和跨空间的相 互作用。大卷积核可以在一定程度上扩大局部接受域,但随之而来的是大量的信息损失。 大多数 AD 分类工作使用 ResNet 或其变体作为骨干卷积神经网络,但 ResNet 最初是为 特定的图像分类任务而设计的,接受字段大小有限,缺乏跨通道和跨空间的交互,不适 合直接处理医学图像分类工作[34,59]。由于图像特征的不同,适合于自然图像分类的骨干 网络并不太适合于医学图像分类。
1.3研究内容和实施方案
1.3.1医学图像融合
大多数现有模型对于融合特定类型的图像都是有效的,但是受限于两模态融合任务。
在实际临床应用的图像处理软件和放疗计划系统中,也仅限于融合两模态图像,无法满 足医生对病灶结构信息等和功能信息的所有需求。相比之下,三模态融合可以同时生成 多个参数,例如可区分的组织、血流、新陈代谢和位置,以此获得对某个区域或目标的 更准确、全面和可靠的描述。本文着重于不同模态的关键医学信息,并提出了一种涉及 几种常用解剖图像和功能图像的多模态融合框架,可适用于三模态融合及两模态融合。 综上所述本文从以下几点进行设计:
(1)构建了一个基于深度学习的解剖图像和功能图像多模态脑部图像融合框架,
专为 MRI/MRI-T2、 PET/SPECT 和 CT/MRI-T1 的三模态图像融合而设计,同时也适用 于两模态医学图像融合。
(2) 根据解剖图像和功能图像的不同成像特征,本文提出了全局纹理模块(Global Texture Module, GTM)和局部细节模块(Local Detail Module, LDM)从各模态的图像中 提取不同的空间域特征。
(3) 结合空间和频率信息建立融合策略,将像素级的高频和低频信息转换为能量 梯度,以保留有效信息并去除周期性噪声。
1.3.2医学图像分类
目前已有的脑部疾病辅助分类工作效果并不理想,将多示例学习方法与基于深度学 习的方法结合时,往往仅使用深度网络进行特征提取,然后使用一个普通的分类方法, 不能学习并消除两部分之间的残差,制约了算法的实现效果。同时大多数基于视觉的标
7
准卷积神经网络分类方法不一定拥有与训练有素的专家类似的评估技术。专家们经过多 年的培训,更了解特征的临床相关性。在解释图像时,他们能够忽略那些对做出有针对 性的诊断不重要的特征。因此开发与这种能力相一致的视觉系统的能力是很重要的。训 练有素的专家所采用的主要认知能力是注意力,注意力在临床上能够评估输入视觉信息 的重要性,并通过分析某个感兴趣的区域进行分类。同样,深度学习中的注意机制能够 在一定程度上通过计算模仿这种能力。因此,在医学计算机视觉系统中结合注意力机制 可以使分类结果接近专家评估,提高准确性,以及围绕临床预测系统的稳健性。脑部疾 病辅助分类工作的实现及其准确性也会面对标签少、样本过小、图像过大等技术难题。 与传统的自然图像相比,医学图像数量大且专业要求高,不能像自然图像那样给每张图 片打上标签。同时,由于没有足够多的打好标签的医学图像数据集,会使得深度神经网 络出现过拟合,难以使用一种分类网络处理多个问题。为此,增加网络模型的深度成为 了唯一的提升性能的方式。但是这种增加深度虽然能提高性能,但是也会增加参数量, 形成梯度消失等问题。因此,针对脑部疾病辅助分类工作的特点,本文基于 DenseNet 网络提出了一种改进的脑部疾病辅助分类卷积网络 SWA-Net(Small Weight Agritecture Net, SWA-Net)。
(1) 为了满足脑部疾病辅助分类工作的需要,设计了基于注意力机制的高精度残 差模块来有效地提取更多的深度特征并捕获医学图像中的特征依赖性,融合脑部图像中 的高级语义特征和低级语义特征,提高分类精度。
(2) 为解决加深模型深度带来的过拟合问题,本文改进了一种数据增广方法,对 脑部疾病阿尔兹海默症数据集进行扩充,提高了模型的抗过拟合能力。
1.4本文的组织结构
根据以上的研究内容,本文的章节安排如下: 第一章为绪论,本章的主要内容是:课题的研究意义和背景,并分析了国内外医学 图像融合以及分类方向的研究现状。
第二章为医学图像基本介绍、深度学卷积神经网络和注意力机制的相关理论以及医 学图像融合与分类的处理方法。
第三章为设计的多模态医学图像融合网络,构建了一个基于深度学习的解剖医学图 像和功能医学图像多模态融合框架,专为 MRI/MRI-T2、 PET/SPECT 和 CT/MRI-T1 的 融合而设计。根据解剖图像和功能图像的不同成像特征,本文提出了 GTM 和 LDM 模 8
块从不同的模态中分别提取空间域特征。通过傅里叶变换结合空间和频率信息建立融合 策略,将像素级的高频和低频信息转换为能量梯度,以保留有效信息并去除周期性噪声。 该网络同样适用于两模态医学图像融合。
第四章为基于 DenseNet 网络提出了一种改进的脑部疾病辅助分类卷积网络—— SWA-Net,以实现疾病分类。设计了一个注意机制模块,以有效地提取医学图像的深度 特征和捕获特征依赖性。为了满足医学图像分类的需要,设计了基于注意力机制的残差 模块提取特征,融合高级语义特征和低级语义特征。 SWA-Net 能以较低的参数和 FLOPs 达到较好的疾病分类效果。同时利用改进的数据增广策略扩充 AD 数据集,以提升网络 模型的泛化性。
第五章为结论和展望,本章主要是对本文提出的工作进行总结,反思工作中的不足 和可以改进优化之处。为未来进一步提高脑部图像融合和辅助分类的研究提供建议。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
 
 
第二章 基础理论与相关研究
根据成像方式的不同,可将获取的医学图像分为不同的模态,明确各模态医学图像 的成像特点,能够更好的理解医学图像在分类及融合工作中提取特征的要求和难点。本 章首先介绍医学图像各模态的获取方式和成像特点,紧接着介绍注意力特征提取机制, 最后介绍基于卷积神经网络技术的医学图像融合及分类方法。
2.1多模态医学图像
2.1.1图像获取
医学图像的主要目的是为了方便让医生观察病人体内的各部位情况。因此,医学图 像必须具有一定的解剖结构,不同解剖结构来源于成像系统的特征和图像形成的方法。 其中CT是一种类似于X光片的穿透型放射线成像技术。其中X光成像是将放射源(X 光球管)放置在距离体外一定距离处,在对球管施加一定高压电流的瞬间产生一束高度 准直的 X 光线,穿透人体靶器官,使另一侧的 X 光片感光。由于不同组织的密度不一, 对通过的 X 光线能量的吸收也不同,在光片上会生成程度不一样的感光效果,因此显示 出不同的平面影像。相比之下, X 光 CT 则是将高度准直的 X 光束绕靶器官进行断层扫 描,并记录大量信息。经过计算机处理后,可以计算出靶器官内各个部位和深度的 X 光 吸收系数值,并用不同的灰度表示。这些灰度值被用来形成靶器官的横断面解剖结构图 像。 CT 与普通 X 光片相比较其分辨率和灵敏度都有很大提高,并且通过增强扫描还可 以提高某些病变组织的对比度。
CT 的横断面图层厚、图像清晰、密度分辨率高,因此, CT 不但可以清晰展示病变 的位置、大小和程度,还可以清晰的展现出病灶与周围组织的联系,为患者后续的诊疗 提供了科学的依据。然而,由于 CT 受组织密度的影响,它局限于探测解剖结构的变化, 难以提供器官内的功能性信息(如代谢和血流)。此外, CT 图像只能反馈出已经有一 定程度病变器官的组织,而对于一些轻微或者未出现结构性损伤和功能性信息病变的器 官组织则无法清晰感知。
与 X 光成像技术相比, MRI 成像技术与它存在一定的相似性,但是它们成像过程、 处理信息的方式和获取信息的内容都大相径庭。与可能造成人体损伤 X 射线和放射性核 素成像相比,磁共振成像是基于人自身原子核的自旋性,通过机器的射频场来形成磁共
11
振,因此方法是无害的。MRI无电离辐射,扫描层面比CT多,还具有多成像参数和多 方向切层成像。与 CT 图像相比, MRI 具有更好的软组织辨识能力,可以高效的展现血 管结构,而无需借助造影剂等辅助材料,同时还没有骨性伪影。最近研究表明 MRI 成 像也能获取一部分功能性信息,适合对人体的非骨性部位或软组织成像,尤其是脑部成 像。在 MRI 成像的过程中,通过改变信号的影响因素,可以得到不同的影像,这些不 同的影像就称之为序列。如根据 T1 值加权,可得 T1 序列,根据 T2 值加权可得 T2 序 列。一个病例可以有多个序列,每个序列由许多切片组成。 T1、T2 是用于测量电磁波 的物理量,他们可以作为成像的数据。根据T1来成像,就叫"T1加权成像”,临床工作 中简称"T1", T2同理。如图2-1所示。
 
图 2-1 上排为 T1 图像,下排为同一部位对应的 T2 图像
T1:T1 看解剖。 T1 图像主观视觉上与临床医学影像配色特征相近,白质呈现为白 色,灰质呈现灰色,脑脊液则表现为黑色,因此 T1 图像可以看出各种断层解剖图。一 般 T1 图像层比 T2 薄,伪影和噪声少,图像更清晰,适合观察器官或组织的解剖结构。
T2:T2 看病变。 T2 信号跟水含量多少有关,在视觉呈现上大量病灶位置的 T2 信 号一般强于附近的正常部位,常呈高亮状态,因此从 T2 序列中可以清楚的看到病灶所 处位置、大小。但病灶周围的浮肿区域在 T2 序列中较为模糊,难以清晰勾勒出浮肿区 域轮廓。
功能性显像(PET, SPECT)也称为放射性核素显像,与CT成像技术一样,是通过 X 光线技术进行成像,但两者不同之处在于功能医学成像是让示踪剂(主要是放射性核
12 素)进入人体中,通过仪器观察示踪剂在人体组织器官中的分布情况。医生或研究人员 可通过这种含有生理或者生化特征的示踪剂,了解人体器官的功能和生理生化方面的变 化。大多数病灶早期只具有功能和生理生化(如血流、代谢和受体)变化,并且部分疾 病结构治疗成功却会具有功能损伤,与 CT 图像和 MRI 图像相比,功能性脑显像获取早 期诊断信息具有较大的优势。但是功能性脑部影像有显著缺点,即不能定性,它仅仅反 映各部位由病理生理和解剖结构变化引起的血流强度和代谢信息的改变,医生还需要结 合临床进行分析。
CT 分辨率高,骨成像清晰,为病灶定位提供了良好的参考,但病灶本身显示效果 差。MRI的空间分辨率低于CT,但软组织成像清晰,便于判断病变范围。此外,MRI 可分为 MRI-T1 和 MRI-T2 等。 MRI-T1 多用于观察解剖结构, MRI-T2 可清楚显示组织 病变。 SPECT 和 PET 呈现人体的血流、代谢等功能信息,但对解剖结构的描述较差。 因此,综合利用多模态医学影像中的患者信息,反映检测部位的解剖结构、组织代谢等 方面的信息,有利于医生诊断和治疗疾病。
2.1.2图像类型
近年来医学成像技术在临床诊断、治疗方案、诊后复查评价等方面应用的尤为广泛。 医学图像是指在医学以及医疗研究过程中,对人体各部分以非侵入方式取得内部组织影 像。常见的有 X 射线, CT, MRI, PET, SPECT 和超声波图像等。而根据成像设备对 人体进行组织结构形态成像或对组织代谢功能成像,根据其不同的成像特点,通常将其 划分为解剖图像和功能图像两种类别。其中解剖图像包括 X 射线, CT, MRI(MRI-T1、 MRI-T2)等,捕捉人体组织或器官的纹理和细节信息,相较于功能图像分辨率更高, 同时对与组织及器官的结构信息有更强的表现力。功能图像包括 PET 和 SPECT 等,相 较于解剖图像可以更加清晰地反映出相关身体组织及器官细胞新陈代谢类的信息,但分 辨率较低。功能性显像与 MRI 显像相辅相成, MRI 解剖结构的变化会引起人体器官的 功能性变化,相反人体器官的功能性异常,也会引起 MRI 解剖结构的异常,这最终导 致了两者的关系互相影响和关联。
2.2卷积神经网络
与传统的手动标记方法相比,深度学习以其强大的数据快速处理能力而闻名。尤其
针对医学图像处数量大且专业性强的特点,使用深度学习网络的应用效果已经远超传统
13
 
方法。如图2-2[60]所示,卷积神经网络(Convolutional Neural Networks, CNN)是深度学
习中被学者研究最多且使用最广泛的算法,在医学图像处理方面展现出巨大的优势。
 
 
 
 
(2-3)
2)池化层:可对图像进行降维,通过特征压缩降低其输出维度,从而减少模型
的参数数量,避免网络训练过程中发生过拟合的现象。
(3)全连接层:全连接层中的每个神经元与前一层中的所有神经元进行连接,而 卷积层则是部分连接,虽然方法都是进行点积,但是由于全连接具有更多的参数,所以 学习能力更强。
( 4 )输出层:通常为批归一化层( Batch Normalization, BN) [61]。它可以解决各个 网络层的输出分布不断变化导致训练困难的问题,通过将各个网络层的输出变换到同一 分布,使网络在训练时能够采用更大的学习率,减少迭代次数。
总体而言,卷积神经网络不仅利用卷积结构极大地减少了参数量,并且利用池化层 提高了网络对不同问题的应对能力。
2.3注意力机制
注意力源于人类视觉系统,当人类对外界事物进行观察时,通常不把事物当成一个 整体来看,而是根据需求去着重关注事物的某些部分,然后把不同部分的信息合并起来, 形成一个对该事物的整体印象。将注意力转移到图像最重要区域并忽略不相关部分的方 法称为注意力机制。人类视觉系统通常使用场景的动态分析[62]、自然行为中的眼球运动 [63]以及控制大脑中目标导向[64]三类方法之一来高效辅助分析和理解复杂场景。这激发了 研究人员将注意力机制引入计算机视觉系统以提高其性能。在视觉系统中,注意力机制 可以视为一个自动筛选特征的过程,它会按照输入的重要性完成特征的自适应加权。注 意力机制因其优势已经在许多视觉任务中得到了应用,例如图像分类[65]、对象检测[66,67]、 语义分割[68,69]、医学图像处理[7°]、图像生成[兀72】、3D视觉[73,74]和多模态任务[75]。注意力 机制(Attention Mechanism)是一种特殊结构,通过网络自己学习输入对输出的占比值。 从而放大占比大的信息,抑制占比小的信息。结果通常都是以概率图或者概率特征向量 的形式展示,从原理上来说,主要分为空间注意力模型,通道注意力模型,空间和通道 混合注意力模型三种。
空间注意力机制:沿着通道轴应用平均池化和最大池操作,然后将它们连接起来生
15 成一个有效的特征描述符。此时池化操作是沿着通道轴进行的,即每次池化时对比的是 不同通道之间的数值,而非同一个通道不同区域的数值。然后将特征描述符送入一个卷 积网络进行卷积,将得到的特征图通过激活函数得到最终的空间注意特征图。
通道注意力机制:通过网络计算出输入图像各个通道的权重,关注包含关键信息的 通道,减少对缺少重要信息通道的关注,从而达到提高特征表示能力的目的。可以通过 全局平均池化和全局最大池化对输入特征图的空间维度进行压缩。再将得到的通道描述 符送到两个全连接网络中,得到注意力权重矩阵,最后与原图做乘法运算得到校准之后 的注意力特征图。
因此本文针对医学图像不同模态图像的高低频特征显示不同的特性采取通道与空 间注意力机制,找到图像上关键信息所在的通道位置,再基于通道的方向找到信息聚集 最多的空间位置,以提取更多有效的深度特征。
2.4医学图像处理方法
2.4.1基于深度学习的医学图像融合方法
深度学习技术在医学图像融合领域通常以模型的形式出现,而不是以算法的形式。 这是因为深度学习技术立足于深度学习算法对医学图像数据的训练,训练的输出即为深 度学习医学图像融合模型。与多尺度变换算法相比,深度学习模型可以在医学图像中挖 掘到更具判别性的特征,同时在图像变换和融合规则的设计上能更有效地映射输入和输 出之间的相关性。深度学习模型通过学习低级特征(如边缘和纹理)来构建高级特征(如 形状和对象),以监督或无监督的网络架构进行医学图像融合。在这些架构中,代表性 方法包括受限玻尔兹曼机(Restricted Boltzmann Machine, RBM) , CNN与生成对抗网 络(Generative Adversarial Networks, GAN)。1986 年 Litjens 等人[34]提出了 玻尔兹曼机 的一种变体 RBM。 RBM 可以在隐藏层的反向传播中生成输入,并估计原始输入的概率 分布。该方法可以通过堆叠来构建更深的架构,称为深度玻尔兹曼机(Deep Boltzmann Machine, DBM)。 DBM 模型也可以用于 MRI 和功能性磁共振图像的融合。然而, DBM 推理学习过程的算法复杂性过高,并且难以在反向传播中反向传播梯度,从而导致梯度 消失等问题,融合效果不够理想。
CNN 作为比较契合图像融合的深度学习模型,在视觉任务中擅长特征提取、选择 和预测,刚好和图像融合中的图像转换、活跃程度测量以及融合规则相匹配。因此,很
16
多学者致力于将 CNN 及其变体网络应用到医学图像融合中。 Liu 等人[76]率先将多焦距 图像融合方面的工作扩展到医学成像领域,其中活跃程度测量的计算依赖于 CNN 的权 重图。然而,受到变换域中多尺度表示所带来的不确定性影响,融合结果往往会出现伪 影。 Hermessi 等人[77]基于剪切波变换提出了孪生 CNN 来学习 MRI 和 CT 图像之间的相 似性,实现了剪切波域内的特征提取。 Zhao 等人[78]首先采用 NSST 将医学图像分解为 多尺度多方向的层,得到低频、高频内子带和高频外子带系数;其次采用区域能量和方 差来合并低频子带系数;然后选择CNN及平均梯度(Average Gradient, AG)进行高频 内子带系数的加权计算,通过较大区域绝对值对高频外子带进行融合;最终通过逆 NSST 变换重构融合图像。 Xia 等人[79]提出了一种深度堆叠的 CNN 融合方法,通过去除子采 样层以获得与输入相同的输出大小。虽然使用整个输入训练的网络可能会忽略模态之间 的局部相似性,但是这对于图像融合来说至关重要。在模型训练过程中,他们增加训练 数据防止训练结果出现过拟合的情况。 Hou 等人[80]首先采用非下采样剪切波变换将源图 像分解成低频系数和一系列高频系数;然后通过 CNN 框架融合低频系数,利用双通道 尖峰皮层模型融合高频系数;最后通过逆非下采样剪切波变换重建融合图像。虽然上述 算法都具有良好的性能,但其局限性在于深度特征的选择仍然依赖于人为设计的规则。 虽然之后陆续提出的 MSDNet 和 IFCNN 在特征提取方面有了很大的进步,但是它们在 特征图融合规则上又局限于像素点的简单计算。并且,网络参数的设置也完全依赖于所 选数据集,没有考虑到融合图像的质量。
Goodfellow等人I8】]最先开发了 GAN方法,然后将该方法应用到图像处理领域。GAN 由一个生成器和一个判别器组成。其中生成器是用来创建新的人工数据,判别器是将数 据分为真实或人工生成两类。在 GAN 中,基于反向传播的训练提高了 GAN 区分真实 数据和生成数据的能力。在医学图像融合领域中, GAN 的巨大潜力得到了发掘。 Tang 等人[82]提出通过 GAN 融合生物图像。 Kang 等人[83]开发了组织感知条件 GAN 来融合 PET/MRI 图像,他们认为融合是保留 PET 图像的颜色信息和 MRI 图像的解剖信息之间 的对抗过程,其中对生成器和判别器的最小-最大优化问题进行建模。 Ma 等人[25]率先针 对医学图像融合没有参考图像的情况,在 GAN 中添加了一个判别器,从而完成融合图 像和源图像相似性的分类,进而推动了判别器对生成器的参数修正,使其能生成更好的 融合图像。旨在降低融合图像的内容损失,同时增强融合图像的密集结构信息,防止削 弱功能信息。其实,生成器的构造是 GAN 方法的关键,如何设计一个能够提取医学图 像深度特征的生成器已成为研究的重中之重。
17
本文通过对上述所有医学图像融合算法的归纳和总结,再结合医学图像融合的临床 需求,本文着重于不同模态的关键医学信息,在多模态融合、提升医学图像边缘特征以 及捕获医学图像特征的全局依赖关系等方面进行了一些探索,提出了一种涉及几种常用 解剖图像和功能图像的多模态融合框架,可适用于三模态及两模态融合工作。
2.4.2医学图像辅助分类方法
经典医学图像分类方法一般是基于单模态的,其过程通常包括图像预处理、 ROI 检 测、特征提取、特征选择(表示)和标签预测五个环节。在传统分类方法中,一般采取 手工方式进行特征提取和选择,例如,主要用于表现图像的纹理、形状、颜色等低级视 觉特性的尺度不变性特征转换(Scale Invariant Feature Transform, SIFT)和方向梯度直方 图(Histogram of Oriented Gradient, HOG)等特征,但是手工特征一般存在两大缺陷: 一是局部特征数量比较大,且维度不一致;二是特征多以高维向量的形式存在。这些缺 陷使得分类算法计算的时间复杂度增加,加重了分类模型的计算开销。常见的传统分类 方法大多数以聚类、朴素贝叶斯、支持向量机等统计分析方法为主,例如 Abdullah 等人 [84]结合局部聚类,利用深度学习网络对一组生物医学乳腺癌图像进行分类,结果表明, 在 BreakHis 数据集上乳腺癌识别的准确率、特异性、敏感性、召回率和 F-Measure 等指 标都有了明显改进。
与传统分类手工提取特征方式不同,基于深度学习的分类方法利用卷积神经网络等 深度学习模型自动提取图像特征,并随着网络深度的增加,逐步提高特征的语义特性, 这使得图像特征的表达能力更强。基于深度学习的分类方法大多利用CNN、深度玻尔 兹曼网络(Deep Belief Network, DBN)、编码机(Auto-Encoder, AE)等模型自动学习 图像中的通用特征,再结合性能良好的分类器实现病灶检测。例如, Ginneken 等人[85] 将 CNN 与支持向量机相结合,用于 CT 图像中的结节检测,通过在 LIDC 数据集上的实 验验证,结果显示此方法较传统分类方法有显著的性能提升。 Abdelzaher 等人[86]提出了 一种基于 DBN 无监督路径和反向传播监督路径的乳腺癌检测方案,并在威斯康星乳腺 癌数据集(WBCD)上进行了测试,结果显示,乳腺癌的分类准确率达到了 99.68%。 Suk 等人[87]通过从 PET/MRI 图像中提取分层特征,并使用 DBM 进行深度特征融合,以 提供AD的计算机辅助分类诊断。目前医学图像分类常用的ResNet[54]、DenseNet[55]等卷 积神经网络,具有很好的效果。与自然图像不同,医学图像不包含大量的场景,整张图 像都填充着详细特征。因此,高级语义特征和低级语义特征都尤为重要[58]。大多数医学
18
图像中相同的部位和身体状态非常相似,关键信息在医学图像中所占比例较小,背景组 织高度相似的细微变化可能代表着某种病变。由于两种图像成像方法的不同,现有的自 然图像分类直接应用于医学图像分类,有一定的局限性,例如使用针对自然图像特征设 计的普通卷积运算。它的感受野大小有限,缺乏跨通道和跨空间的相互作用。大卷积核 可以在一定程度上扩大局部接受域,但随之而来的是大量的信息损失。大多数 AD 分类 工作使用ResNet或其变体作为骨干CNN,但ResNet最初是为特定的图像分类任务而设 计的,接受字段大小有限,缺乏跨通道和跨空间的交互,不适合直接处理医学图像分类 工作[34,59]。由于图像特征的不同,适合于自然图像分类的骨干网络并不太适合于医学图 像。
总的来说,经典的医学图像分类方法是自然图像分类方法在医学领域的拓展,由于 图像来源多是单一传感器或单一特征的,分类方法所提取的特征也是片面的和局部的。 因此,对医学图像缺少一个更加全面、清晰和准确的认识,总体分类性能不如自然图像 领域那么突出。为此本文针对脑部疾病辅助诊断提出了一种改进的分类网络,针对医学 图像特征引入一个卷积注意力模块来提高疾病分类精度。它可以有效地提取图像中通道 的特征以获得更高的精度。同时,设计了一种新的残差结构来融合特征通道之间的信息, 使其更加紧密相关。
2.5本章小结
本章介绍了医学图像获取及分类的相关背景知识,以及深度学习中最常用的卷积神 经网络的组成架构以及工作原理,具体介绍了卷积层、池化层、全连接层及其具体操作。 然后介绍注意力机制的原理。最后介绍了现有的医学图像的处理方法,包括医学图像融 合和分类方法。本章为本文的后续研究提供了理论基础与方法支撑。
19
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
 
 
第三章 多模态脑部图像融合网络
在临床诊疗中,综合利用患者的各模态图像信息,使其信息互补,在一幅图像中反 映出检测部位的解剖结构、组织代谢等多方面的信息,将方便医生对患者进行病情诊疗、 有利于提高诊断和治疗过程的速度和提高疾病的检出率,这正是多模态医学图像融合的 目的。本章提出了一个基于深度学习的解剖医学图像和功能医学图像多模态融合网络框 架,专为 MRI/MRI-T2、PET/SPECT 和 CT/MRI-T1 的三模态图像融合而设计,同时适 用于两模态图像融合,在主观视觉和客观指标上都取得了较好的结果。
3.1多模态图像融合网络框架
医学图像在医生进行疾病诊疗时具有重要作用,由于医学图像多模态的特性以及各 模态的局限性,多模态医学图像融合应运而生。其目的是对多幅源图像的信息进行提取 和综合,以获得对某一区域或目标更加准确、全面和可靠的描述,从而实现对图像的进 一步分析和理解。图像融合通过使用适当的特征提取方法和融合策略,从源图像中生成 包含显著特征和互补信息的单一图像,在医学图像处理中占据着重要的地位。医学图像 有它独特的性质,如从图像信息的角度分析,可以发现医学图像中的关键信息占比小。 在医学图像中,绝大多数同部位,同体态的医学图像相似度非常高,这主要是人体组织 本身相似度高所致。而医学图像中的细微结构并不能像自然图像中那样认为是无关紧要 的,在相似度极高的背景组织中的细微变化有可能就代表着某种病变。因此,医学图像 融合与自然图像有较大区别,需要关注图像中关键的医学信息及特征。
本章提出了一种新颖的多模态医学图像融合网络,它可以高精度融合解剖图像和功 能图像,专为三模态医学图像融合设计,同时适用于两模态医学图像融合。在特征提取 过程中,本网络针对医学图像的不同模态特征设计了 GTM 和 LDM 两个模块提取特征 信息。采用通道和空间注意机制的方法找到图像中关键信息的通道位置,然后根据通道 的方向找到信息聚集最多的空间位置来捕获位置信息,方便提取更有效的深度特征。在 融合策略中加入傅里叶变换,将图像特征信息从空间域变换到频域进行处理。将像素级 的高频和低频信息转化为能量梯度,以保留有效信息并去除周期性噪声。这是首次将空 间域和频域变换结合在医学图像融合方法中,本网络充分结合了空间域和频域变换的优 势,以保留更完整的纹理细节和全局轮廓信息。融合框架如图3-1所示。GTM和LDM 被设计用来分别提取 CT 和 MRI 等解剖图像以及 SPECT 等功能图像的特征信息。 CT 分
21
辨率高,骨成像清晰,可反映组织器官出血情况,可用于定位病灶部位。因此, LDM 用于提取其高频信息。 MRI 不如 CT 清晰,但软组织成像更清晰,适用于观察软组织结 构以确定病变范围。因此, GTM 被用来提取其低频信息。 SPECT 等功能图像提供有关 人体的功能信息,为伪彩色图像,各部位组织的代谢强度信息通过颜色对比表达,但其 纹理信息较弱。因此,利用 GTM 和 LDM 同时提取其特征信息,结合解剖图像的特征 确定病变的位置和程度。最后融合了三张源图片的特征信息得到输出结果。通过对各模
 
 
3.2特征提取模块
3.2.1全局纹理模块
目前医学图像大多数是放射成像,功能性成像,磁共振成像,超声成像这几种方式, 不一样的成像方式运用的原理各不相同,不同的医学图像模态也反映出不同的医学信息。 例如, CT 图像分辨率高,骨成像非常清晰,可以为病变的位置提供很好的参考,但病 变本身的显示较差。 MRI 图像则不同,虽然空间分辨率低于 CT 图像,但软组织成像清 晰,有利于确定病变范围。并且, MRI 图像还有多种成像模式,如 MRI-T1 与 MRI-T2 图像, MRI-T1 图像多用于观察解剖结构, MRI-T2 则更能清晰的显示组织病变。另外, 虽然 SPECT 和 PET 提供了人体的功能信息,但对解剖结构的描述很差。而 MRI、 CT 和 X 射线成像能较好地描述人体解剖结构,但图像中缺乏人体功能信息。本文针对医学 图像特点设计 GTM 来提取其低频信息。
22
全局纹理特征提取模块结构如图 3-2 所示。在该特征提取模块中,卷积特征提取的 操作主要是通过改变不同层的通道数来捕获上下文的全局信息。首先,在不改变输入图 像大小的情况下,通过一系列 CBR 操作将维数增加到 64 维,最后将维数减少到 16 维 并作为输出,来提取图像特征。 GTM 提取解剖图像和功能图像中的低频信息,即亮度 和灰度值在图像中变化缓慢的大片平坦区域,是对整幅图像强度的综合衡量,可以获取 图像中大范围的低频信息,用于观察软组织结构以确定病变范围。图中紫色方块表示特 征图,底部的数字表示通道数和图像大小。 CBR 是一组操作,具体代表卷积操作、批量 归一化操作以及 ReLU 激活函数。
 
 
3.2.2局部细节模块
局部细节特征提取模块结构如图 3-3 所示。该模块主要通过卷积运算得到特征图, 并通过上采样和一系列 CBR 操作将特征维度提升到 128 维。再将特征图通过具有最大 池化和降维功能的 CBR 中,使得特征图降维到 16 维并作为输出维。 CBR 操作,即卷积 操作、批量归一化和 ReLU 激活函数。同时加入上采样和最大池化来提取输入图像的 局部细节。 LDM 提取图像中的高频信息,可以理解为细节信号,在图像上显示为亮度 变化较多且明显的部位,主要用于测量图像的边缘和轮廓,可以获得具体的细节信息, 便于定位病灶部位。同时使用张量拼接添加两个级联操作可以捕获长距离依赖关系,并 联系上下卷积层以减少特征提取中的信息损失。
医学图像有它独特的性质,因此在设计融合算法的过程中与其他类型图像的处理方 式有较大的差距。本文利用 GTM 和 LDM 两个特征提取模块针对性提取不同模态脑部 图像的高、低频特征信息,综合利用患者的各种图像信息,使其信息互补,在一幅图像 中同时反映出检测部位的解剖结构、组织代谢等多方面的信息,将方便医生对患者进行 23
病情诊疗、有利于提高诊断以及治疗过程的速度和提高疾病的检出率,这正是多模态医
 
 
3.3多模态融合策略
3.3.1频域信息变换
本文在融合策略中加入傅里叶变换以实现特征信息的频域变换,目的是将从解剖图 像中提取的空间域高、低频信息变换到频域,将空间信号转换为频域中不同频率下对应 的振幅和相位。振幅涵盖图像的全局信息,如纹理和颜色等信息。相位包含图像的局部 信息,即轮廓、形状等信息。经过特征中心化处理后,有利于区分高频信息和低频信息。 图像大小为MxN的函数F(u,u)的离散傅里叶变换(DFT)为:
叫叭二击瑁吒縮心刃严噹+皿) G-1)
然后将特征信息再进行傅里叶逆变换,从频域变换到空间域和功能图像的高低频信 息进行特征融合。最大化傅里叶变换后的高频和低频信息,然后通过级联和卷积操作分 别与功能图像 SPECT 的高频和低频信息进行特征融合。如图 3-1 所示,对输出的高、 低频信息进行平均后,对其进行卷积和tanh运算,输出最终的融合结果。给定F(u,v), 可以通过逆DFT得到f(x,y)的傅里叶逆变换:
张,刃=F(u,佔2喘+皿) (3-2)
如公式(3-2)所示,其中 u、v 为频率变化, x、y 为空间域图像变量,取值范围为
咒/u=0,1,2...,M-1,y/v =0, 1, ...,N-1。
24
3.3.2损失函数
本文损失函数计算如公式(3-3)所示,兀根据融合测试效果,值设置为0.8时可获得最 佳多模态融合效果。
L =入厶$ + Lp, (3-3)
1
Ls = [a(l — SS/M ("Ji)) + 0(1 — SSIM(If」2)) + K1 — SS/MQf,®) + *(3-4)
1
Lp =[毗2(“,,1) + 0L2(/f,,2)+ 皿2(“,,3)+ &]2 (3-5)
其中a、卩和y设置为0.3、0.3、0.4。为了减少误差,s被设置为10—6。其次, 当使用所提出的网络进行双模态图像融合时,本文将a、卩和y重置为0.5、0、0.5。 /1,/2为解剖图像,对应CT和MRI。/3为功能图像,对应SPECT和PET。其中SS/M 为结构衡量指标,通过考量图片的亮度、对比度、结构三个关键特征来计算两幅图的相 似度,更符合人眼的直观感受。
3.4模型评估实验和结果分析
本章从开放数据集的全脑图谱中收集医学图像,并选择了 CT、 MRI-T1、 MRI-T2、 SPECT和PET,数据集中的所有图像都是预先配准的。训练期间使用了 MRI-T1、MRI-T2 和 PET。 MRI-SPECT 输入用于测试两模态医学图像的融合, CT-MRI-SPECT 用于测试 三模态医学图像的融合。本实验所用图像均为脑图像,大小为256x256。实验在单个RTX 2080TiGPU 中进行。在训练过程中,初始学习率为 0.001, 101 个 epoch, batch size 为 2。本文采用自适应损失调整策略,每 20 个 epoch 将学习率更新为原始值的 0.1 倍。
本文采用熵(En)、互信息(MI)、空间频率误差(rSFe)、标准偏差(SD)和 视觉信息保真度(VIFF)来定量评估结果。熵用于量化在融合图像中保留了多少来自所 有源图像的离散灰度级平均信息。互信息用于量化从每个源图像传输到融合图像的信息 量,衡量两个图像之间的相关性。标准偏差提供了融合图像的色散强度的度量。视觉信 息保真度评估视觉信息的保真度。这四个指标的值越大,表示融合效果越好。
如公式(3-6)所示,空间频率误差比为相对量度,用于反映图像信息的局部强度变化, 由四个空间频率(Row、Column、Main Diagonal、Secondary Diagonal)的平方和四个一 阶梯度(水平、垂直、主对角线、次对角线)决定,其计算公式如式(3-6)所示。该指标
25
 
 
的绝对值越小,融合效果越好。
 
抚環1 珞[/fQJ) — “(i - k + 1J + k - 2)]2, k = 1,2,
轴•击瓚2 琅2【MJ) — M — 1J + 2fc — 7)]2, k = 3,4,
Grad//F = max{abs(GradM]), abs(Grad〃2), abs(Grad〃3)} 上Q2
其中图像大小为MxN,3d表示距离权重,其取值为1/V2。/]、心和代表三种 模态的脑部源图像。
 
3.4.1三模态脑部医学图像融合
在实际临床应用的图像处理软件和放疗计划系统中,也仅限于两模态图像融合。事 实上,三模态医学图像的融合尤为重要。本节先以三模态融合实验的结果为例来证实这 一点,如图 3-4 所示。 CT 图像中小脑蚓附近有两个大小不一的白色圆环,在 MRI 中红 色箭头所指的部位变成小型灰色圆环,证明水含量不高,不是浮肿部位,但边缘不够清 晰;蓝色箭头所指白色圆环包含在了周围高亮组织中无法识别。在 SPECT 中,两个箭 头所指部位与周围组织相比活跃度不高,表明代谢无异常。当 CT 和 MRI 融合时,融合 结果(图3-4 (d))包括解剖信息和组织信息。但箭头所指的部位只与原CT在对比上 有所不同, MRI 中的组织信息对医生诊断没有明显作用。当 MRI 和 SPECT 融合时(图 3-4(e)),两个箭头所指部位与原MRI图像相比形状轮廓仍然基本一致,功能信息 不明显。然而,融合三模态图像时(图3-4 (f)),加入了组织代谢等信息,两部位的
26
形状与原始图像有明显不同,这足以让医生清楚地了解准确诊断病变的部位和程度。
医学图像融合基于三模态的工作较少,因此本文选择了目前提出的两种三模态融合 方法的进行实验比较。本文将融合结果与Zero-LF[32]和Jin等人[33]的融合结果进行了比 较。这两篇论文的作者都没有公开他们的源代码。所以本文按照他们论文中描述的程序 复现了他们的工作,以获得测试结果进行比较。
 
(a)CT (b) MRI (c) SPECT (d)Zero-LF [32] (e) Jin et al.[33] (f) Proposed
图 3-5 三模态融合结果对比图
CT-MRI-SPECT 三模态融合实验:对于实验结果,本文重点关注彩色框标记的两个 部分,如图3-5所示,图中左侧为三种模态源图像(CT/MRI/SPECT)及其相应的ROI 放大图像,右侧三列Zero-LF[32]和Jin等人[33]和本文提出的方法的融合结果及其相应的 ROI 放大图像。其中蓝色框内含尾核头、透明隔、中帆腔、中央前回、中央沟等部分, 红框包含胼胝体、直窦、楔叶、上矢状窦、顶枕沟等部分。从融合结果图可以看出, Jin 等人[33]的融合结果在很大程度上保留了 SPECT 中的功能信息,但原始 CT 和 MRI 中的 信息保留不够,对比不清晰,视觉效果较差。 Zero-LF 和本文的方法在视觉上相差不远, 本节将从细节上分析它们。通过放大红框部分进行 ROI 细节比较, Jin 等人[33]的结果在 CT 和 MRI 中缺少纹理信息,只能从中获取大量的功能信息,不利于准确定位病变。 Zero-LF 和本文的方法都在很大程度上保留了三个源图像的解剖信息和功能信息。 从主 观视觉质量的角度来看,本文所提出方法的对比度更清晰。
 
(a) CT (b) MRI (c) SPECT (d) Zero-LF [32] (e) Jin etal.[33] ⑴ Proposed
图 3-6 从主观视觉质量的角度比较各方法在 CT-MRI-SPECT 融合中的效果
 
27
另一组实验结果如图 3-6 所示。与源图像相比,三幅图像融合后, Zero-LF 和本文 方法的融合结果很好地保留了 CT中的重要解剖信息、MRI中的组织信息和SPECT中 的功能信息。但是 Jin 等人[33]的融合结果只保留 SPECT 中的功能信息,缺少其他两种模 式中的重要信息。图3-6 (f)中箭头1至箭头5分别指向胼胝体膝部和侧脑室前足、脑 岛和外侧裂、小脑虫体和海马体、上矢状窦、楔形体以及尾核等。与源图像相比,本文 的方法得到的融合图像在箭头 1、箭头 2 和箭头 4 指向的区域显示出清晰的白质边缘轮 廓。并且这些区域显示出更高的亮度,这意味着本文的方法保留了来自源 MRI 的更完 整的组织信息。与 Zero-LF 相比,箭头 5 周围保留了更清晰的功能信息,对比度明显。 与 Jin 等人 [33]的工作相比,本文的方法保留的功能信息较少,但保留了更多的组织信息, 并且在本文方法的融合结果中箭头指向的地方可以看到明显的黑边。在箭头 3 所指的上 方,可以清楚地看到两个黑色圆圈。从主观视觉质量的角度来看,所提出方法的对比度 更清晰。此外,从客观指标评价的角度来看,本文所提出的方法在 En、 MI、 rSFe、 SD 和 VIFF 中也优于其他两种方法,指标如图 3-7 所示。
 
 
3.4.2两模态脑部医学图像融合
当输入为两种模态时,将的特征图作为其低频信息,通过简单的一步卷积运算得 到,相当于人的全局纹理信息。本文选择了 FunfuseAn[26]、Zero-LF[32]、IFCNN[27]和 NestFuse[]进行测试和比较,这些方法的参数设置为其源代码中默认值。
MRI-SPECT 两模态融合实验:在此部分中,测试结果以灰度图形式存储和展示。 如图3-8所示,顶部((a) - (d))表示源图像(MRI/SPECT)及其相应的ROI放大 图像;底部((e) -(i))分别为 FunfuseAn, Zero-LF,IFCNN 和 NestFuse 以及本文
 
提出的方法获得的两模态融合结果。蓝色框内为额上回、额中回、额下回、扣带回、扣 带沟等部位,红色框内为侧脑室、侧脑室后足、下矢状窦、直窦、中帆腔和上矢状窦等 部位。 Zero-LF 和 IFCNN 中的图像对比度稍差。 FunfuseAn、 NestFuse 和本文提出的方 法具有相似的图像对比度。 FunfuseAn 和 NestFuse 保留了更多的功能信息,但保留了较 少的组织信息。仔细比较红框中放大后的 ROI 部分,可以看到通过本文所提出的方法得 到的融合图像更好地保留了源图像的功能和组织信息,纹理信息更加明显。本文提出的 方法从中可以清晰地看到匹配的黑色椭圆和白色纹理。
 
表 3-1 不同方法获得的 MRI-SPECT 融合结果评价指标值
Methods EN MI rSFe SD VIFF
FunfuseAn 6.0903 12.1806 -0.5955 60.2307 0.2679
Zero-LF 5.2478 10.4956 -0.7620 42.8846 0.1538
IFCNN 5.5447 11.0893 -0.5485 51.9171 0.1674
NetFuse 5.7672 11.5343 -0.5575 71.1673 0.2587
Ours 6.2961 12.5921 -0.4493 64.4565 0.3272
实验结果的客观评价指标如表 3-1 所示。可以看出,进行两模态脑部图像融合测试 时,本文提出的方法在 En、 MI、 rSFe 和 VIFF 四个指标值中优于其他四种方法,只有 SD 值比 NestFuse 的稍差。这表示我们的融合结果在信息量增加、从源图像获得信息的
29
丰富度、图形局部强度的变化以及视觉保真度方面都优于其他四种两模态融合方法。因
此,本文认为两种模态融合的方法仍然比其他四种方法具有优势。
3.4.3消融实验
本文设计了三组消融实验来说明所提出的融合框架中频域变换的有效性以及 GTM 和LDM的合理性。图3-9展示了一组消融实验中的融合效果,其中(a) - (c)表示三 模态源图像,(d) -(g)分别表示通过三种消融实验和提出的方法获得的融合图像结
果。
 
(a) CT (b) MRI (c) SPECT
 
 
 
表 3-2 消融实验评价指标值
Methods EN MI rSFe SD VIFF
w/o fft 4.5019 13.5058 -0.5267 69.0023 0.9470
/i+gtm 4.4250 13.2750 -0.5690 73.5940 1.1924
b+ldm 4.3809 13.1426 -0.5286 77.7885 1.1987
Ours 4.5041 13.5122 -0.5128 75.5713 1.5891
 
(1) w/o FFT消融实验:从融合策略中移除傅里叶变换。如图3-9(d)所示,融 合结果的信息完整性降低。 缺少频域的特征集中处理,融合图像的信息处于离散状态。 同时, CT 的边缘信息和 MRI 的纹理细节也部分丢失。
(2) A+GTM消融实验:通过LDM和GTM提取人的特征,而不是在提出的方法 中仅通过LDM提取特征。如图3-9(e)所示,MRI和SPECT中的组织信息和功能信
30
息得到了很好的融合,但缺少来自 CT 的关键解剖信息。例如,源 CT 图像清晰的轮廓 变得有点模糊,图像的外边缘显示出 SPECT 的轮廓形态。
(3) D+LDM消融实验:通过LDM和GTM提取“的特征,而不是在所提出的方 法中仅通过GTM。如图3-9(f)所示,融合图像中产生了一些纹理失真,并且存在重 叠、伪影、轮廓信息模糊等现象,不利于临床观察组织信息和定位病灶。在客观指标方 面,本文提出的方法在 En、 MI、 rSFe 和 VIFF 中均优于上述三组消融实验。因此证明 本文提出的融合策略和从空间域到频域的转换策略效果很好,如表 3-2 和图 3-10 所示。
 
3.5本章小结
虽然很少有研究人员关注这个研究方向,但三模态医学图像融合对于许多疾病的临 床诊疗具有重要意义。本文提出了一种新型的三模态医学图像融合网络(也适用于两模 态融合),主要设计用于融合MRI/MRI-T2、PET/SPECT和CT/MRI-T1。结合全局-局 部特征提取策略和空间-频率融合策略,该融合网络实现了三模态融合,达到了较好的 融合效果。与具有代表性的两模态融合和三模态融合方法相比,所提方法具有更高的图 像质量,在主观视觉评价和客观指标上有更好的结果,并且更具有泛化性和鲁棒性。以 后会致力于在 CAD 中的应用。
31
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
 
 
第四章 脑部疾病辅助诊断分类
在本章中,针对脑部疾病辅助诊断分类精度不足的问题,本文基于 DenseNet 网络 进行了改进,提出了一种高精度分类卷积网络SWA-Net。在对阿尔兹海默症数据集的测 试中,此网络可有效且快速的辅助医师判断患者是否确诊阿尔兹海默症。实验结果表明, 所提出的包含较少参数的简单但有效的模块比最先进的方法具有更高的精度。同时,为 了满足医学图像分类的需求,本文设计了一个基于注意力机制的残差模块来提取特征并 融合高层语义特征和低层语义特征。综上所述,本章将介绍 DenseNet 网络并详细阐述 本文的改进措施,最后使用阿尔兹海默症图像数据集对本文的模型进行评估和结果分析。
4.1基于 DenseNet 改进的 SWA-Net 脑部疾病辅助分类模型
4.1.1辅助分类网络模型 SWA-Net
与自然图像不同,医学图像不包含大量的场景,但它的细节特征填充整张图像,因 此其高级语义特征和低级语义特征都尤为重要[88]。脑部医学图像中关键信息所占比例较 小,大多数医学图像中的相同部位和身体状态非常相似,背景组织中具有高度相似性的 细微变化可能代表某种病变。由于两种图像成像方法的差异,现有的自然图像分类直接 应用于脑部医学图像分类具有一定的局限性,例如,它们使用针对自然图像特征设计的 普通卷积运算,其感受野大小有限、缺乏跨通道和跨空间的互动。而大卷积核可以在一 定程度上扩大局部接受域,但随之而来的是大量的信息损失。
在本节中,针对脑部疾病分类任务提出了一种高精度的卷积网络模型SWA-Neto该 网络模型提出了一种新的残差注意力模块,以帮助网络学习更具表现力的特征,同时减 少可训练参数的数量。如图 4-1 所示,本文框架的整体架构是分阶段设计的。这里,本 文网络第一层首先使用 CBM 对输入图像简单的特征提取,然后通过一个卷积核为 3, 步长为 2 的最大池化块将输入图像进行一个简单的下采样到 1/2,最后通过注意力模块 将输入图像的特征维度变为 C 维。随后在第二层和第三层中使用 Maxpool2d 和注意力模 块将输入图片的高度(Heigh, H)和宽度(Weight, W)变为原来的1/8,将特征维度变 为第一层的 4 倍,最后在第四层和第五层中,一开始使用 DenseNet 块和 CBM 进行特征 提取,随后使用 Maxpool2d 进行下采样和注意力模块进行特征提取。接下来将详细介绍 CBM、LKA 和注意力模块三个模块。
33
 
 
4.1.2DenseNet 网络结构
大多数医学图像分类工作使用ResNet或其变体作为主干CNN,但ResNet最初是为 特定的自然图像分类任务所设计,它的接受域大小有限、缺乏跨通道(channel)和跨空 间的交互,不适合直接处理医学图像分类工作[34,59]。同时图像特征不同,适用于自然图 像分类的骨干网络并不能很好地适用于脑部医学图像疾病分类。在深度神经网络中增加 残差网络减少过拟合已经成为常用措施。与传统的 ResNet 相比, DenseNet [55]网络提出 了更加紧密的残差机制,即让后面的网络层接收前面每一层的输出作为残差输入。这种 密集连接机制是针对层与层之间的通信而设计的,图 4-2 展示了 ResNet 所有层之间的连 接方式,其中每层通过元素级别的相加操作进行连接。而图 4-3 则展示了 DenseNet 网络 更为紧密的连接机制,即为每层通过通道级连接操作实现。
 
如图 4-2 所示, ResNet 网络只是稀疏的残差连接,即为只将前面一层或者两层作为 下一层的输入,并且只是简单的元素级别相加。与之相比, DenseNet 网络可称为密集残 差连接,即为后面的每层都将此层前面所有层的输出作为本层的输入,并通过 concat 进行通道维度拼接。假设深度神经网络有 n 层,则 DenseNet 网络是指数级的连接数, 即为(n(n+1) ) /2个。这种密集连接方式与ResNet网络简单的n个或2n个连接数有
34
很大不同。此外,由于 DenseNet 网络并不是直接的元素相加,而是使用 concat 拼接通 道,使得通道维度增大为原来的 2 倍,这种方法较好的保留了各个层级的特征,同时也 优于 ResNet 网络的直接相加。
 
图 4-3 DenseNet 网络结构
 
如果用公式表示的话,传统的网络在 n 层的输出为:
xn = Hn(Xn-l) (4-1)
如果使用稀疏残差的 ResNet 网络,则会增加上一层或两层的输出作为本层的输入:
Xn = HnGn—l) + %n-1 (4-2)
在 DenseNet 中,会连接前面所有层作为输入,该框架的主要优点是第层能够从所 有先前的 n 层中接收所需的特征信息作为输入。
Xn = Hn(Xo,Xi ,窃-1) (4-3)
如公式(4-3)所示,其中Hn(-)为非线性转化函数,此函数是组合操作,其可能包括一 系列的BN,ReLU,Pooling及Conv操作。H厶为第L层的拼接特征图函数; [x0, x1 ,XL-1]是层x0, x1 ,xl-1的特征映射,它允许DenseNet减少参数数量,增
强特征传播并促进特征重用。注意这里 L 层与 L-1 层之间实际上可能包含多个卷积层。
综上所述, DenseNet 思想就是卷积和下采样过程中可能会导致训练样本的重要特征 信息在传输过程中丢失。为了保留重要的特征映射并更有效地重用关键特征信息,提出 了 DenseNet 框架,其中每一层都前向连接到其他层。由于图像数据集的复杂性,尤其 是多尺度疾病类别的密集分布和共存,使用密集块更好地促进整个网络的特征传递和梯 度传播至关重要。此外,它可以在一定程度上缓解过拟合现象。
35
4.2SWA-Net 分类模型的特征提取及卷积模块设计
4.2.1基于Mish激活函数的特征提取组合-CBM
众所周知,如今在深度学习网络中, Conv 层连接 BN 层和 ReLU 层已成为一个经典 的特征提取单元,但是作为激活函数的 ReLU 函数也存在一些缺点。即在学习率较大时, 在特定的区间一些输出结果将会被舍弃。在训练期间,如果神经元的权重得到更新,使 得神经元输入的加权和为负,则它将开始输出 0。当这种情况发生时,由于当输入为负 时, ReLU 函数的梯度为 0,神经元就只能输出 0 了。所以为了解决这个问题,如图 4-4 所示,本文提出了一个基于Mish激活函数的特征提取组合模型(CBM),本模型选用 了 Mish 激活函数,在 Conv 层和 BN 层后接入 Mish 激活函数,能够使网络在训练过程 中更加稳定和准确。
 
图 4-4 一种基于 Mish 激活函数的特征提取组合
 
设计医学图像分类模型的一个重要方面是选择合适的激活函数以提高准确性和性 能。激活函数可以用导数、单调行为等特性来表征。在这方面, SiLU 和 Sigmoid 在图 像分类模型的激活函数中被广泛使用。然而,使用 Mish 函数作为 ReLU 的替代方案使 神经网络的性能得到了显著改善。 Mish 函数表示为:
Mish(x) = %• tanh (饥(1 + e")) (4-4)
其中, Mish 激活函数是无限的(即正值可以达到任何高度)以避免由于封顶而饱和, 其中 tanh 函数的表示为:
tanh(") = e^B^ (4-5)
其中, tanh 函数的输出是 S 形的曲线,打破了网络层与网络层之间的线性关系,可 以映射输出网络层非线性进入区间(-1, 1)。
由于 Mish 激活函数没有上界,有下界,可以保证不存在饱和区,所以在训练过程 中不会出现梯度消失的问题,如果有下界,则可以保证一定的正则化效果,这是神经网 络的一个很好的特性;同时, Mish 函数是一个非单调函数,输入较小的负数时梯度回
36
传会比较小,有助于稳定网络梯度流;此外, Mish 函数还是一个平滑函数,具有良好 的泛化能力和对结果的有效优化能力,可以提高结果的质量。大多数图像分类模型都有 使用 Mish 激活的算法,可大大提高结果的质量,减少对模型的内存访问次数。 Mish 函 数在这里用作激活函数,在所考虑的数据集上具有显着的精度增益,同时提高了检测速 度,大大降低了计算成本。
4.2.2基于CoordAttention的大核特征提取卷积-LKA
注意力机制就是通过神经网络的自身的学习能力判别那些特征图哪些区域重要那 些区域不重要,通过这一过程,可以将输入的相同权重的特征图转化为不同权重的注意 力图。为此,注意力机制最重要的是应该学习不同特征之间的关系。有两种众所周知的 方法来建立不同部分之间的关系。第一个是采用自注意力机制[89,71]来捕获长程依赖。但 由于最初是为自然语言处理设计的,所以这种自注意力机制(Self-attention)在图像识 别中有一些缺点:第一将图像序列化丢失了图像的空间结构;第二对于高分辨图像来说, 自注意力机制的复杂度过高;第三自注意力机制缺少一定的通道维度适应性。第二个常 用的注意力机制方法是通过较大的核卷积[92,91,90]来形成不同特征之间的关系。这种方式 仍然也存在明显的缺点,即为大核卷积将带来大量参数和巨大的计算开销。
 
图 4-5 VAN 网络结构
为了发扬自注意力和大核注意力的优点,抑制它们的不足, Guo 等人提出了 VAN[93] 网络,将大核卷积分解来减少大量参数和巨大的计算开销,并且通过分解获取特征间的 长关系。如图 4-5[93]所示, VAN 网络将较大的卷积核分为三个较小的卷积核进行空间局 部、空间长程和通道卷积。具体来说。可以将一个KXK卷积分解为一个带扩张d的E] X [日深度扩张卷积、一个(2d-1) x (2d-1)深度扩张卷积和一个1x1卷积。通过上述 分解, VAN 可以用很小的计算成本和参数来捕获特征之间的关系。得到特征之间的关系 后,就可以评估一个特征点的重要性,并生成注意力图。
37
在此基础上,本文提出了基于CoordAttention的大核卷积特征提取模块(Large
Kernel Attention, LKA),如图4-6所示,本文用CoorAttention机制代替原来逐点卷积, 并在其后使用大小为5x5的卷积核的空间局部卷积和一个大小为7x7且步距为3的卷积 核的深度扩张卷积连接所有通道建立更紧密的关系。利用通道和空间注意力机制来定位 关键信息,并尽可能挖掘通道方向的信息聚合,以提取更有效的深度特征并捕获医学图 像中的特征依赖性。公式如下所示:
LKA = CoorAttention(DW — D — Com(DW — Conv(F))) (4-6)
Output = LKA 0 F (4-7)
其中,fwRCxhx”为输入特征,lKAwRCxhx”表示注意力图。注意图中的值表示每 个特征的重要性。 0表示逐元素乘积。
 
图 4-6 基于 CoordAttention 的大核卷积特征提取模块
 
4.2.3基于残差注意力机制的高精度卷积模块
在本节中,针对医学图像的分类任务提出了基于残差块注意力机制的高精度卷积模 块-注意力模块。该网络模块提出了一种新的残差块注意力机制,以帮助网络学习更具 表现力的特征,同时减少可训练参数的数量。如图 4-7 所示,其中第一部分的残差块作 为注意力模块的主干,在进入主要残差单元后进行 1x1 卷积提取特征,然后再进行多个 LKA 模块卷积进行通道调整,为了进一步增强特征提取,再执行一次 1x1 的卷积。第 二部分作为主干卷积的残差边缘,在注意力模块的末尾,将两个部分连接在一起以生成
 
 
如图 4-7 所示,注意力模块主要由一个 CBM(Conv 卷积核、 Normalization 层和
38
Mish 激活函数)和多个 LKA 模块组成。注意力模块会先对输入的特征进行通道分割, 一部分会通过一个扩展conv,然后扩展后的特征会被n个LKA模块进行特征提取,再 通过一个1x1的Conv将特征转换成。讥-也笄,另一部分只做1x1 Conv。然后两者都 执行连接操作,然后进行通道连接以增强特征提取网络并降低计算成本。
4.3模型评估实验和结果分析
实验在单个 RTX 3090Ti GPU 中进行。在训练过程中,初始学习率为 0.0001, 200 个 epoch, batch size 为 16。本文采用自适应损失调整策略,每 10 个 epoch 将学习率更 新为原始值的 0.1 倍。 Floating-point Operations( FLOPs)、 Params、 Top1-Acc 用于对 分类结果准确度进行定量评估。 FLOPs 是指浮点运算的次数,用于衡量算法的复杂度。 Params 是指模型训练中需要训练的参数总数。 Top1-Acc 如式(4-8)所示:
Topi — Acc = T/N (4-8)
其中, N 代表样本总数, T 代表所有测试图像中模型输出的最佳标签中正确标签的 样本数, Top1-Acc 可反映分类模型的分类精度。
4.3.1阿尔兹海默症图像的数据增广
医学图像不易获取且数据集小,为避免卷积神经网络训练时出现过拟合的情况,需 要数据增广对数据集进行扩充。为了提高模型的准确性和通用性,使用数据增强是较好 的方法。其中传统数据增强方法较为简单且各有优劣。 Ekin D. Cubuk 等人[94]提出了一 种数据增强策略AutoAugment,设计了一个由许多子策略组成的搜索空间,同时创建搜 索空间允许搜索算本文法选择合适的数据增强方法。该方法在不同数据集上具有良好的 可移植性。在医学图像数据集中,不同机器和机制的图像采集程序会在分辨率、图像噪 声和组织外观方面产生很大差异[95]。典型的手动数据增强方法无法捕获此类图像中的复 杂变化。因此,本文在AutoAugment的基础上,加入直方图均衡化来提高图像对比度, 增强医学图像中的复杂细节,并使用 Scharr 算子解决医学图像中细节模糊和对比度低的 问题。得到的数据增强图像减少了信息丢失同时使其保持医学意义。
数据增广可以通过多种方式实现,同时可以使模型在不同的情况下看到更多的图像, 从而提高其对数据的理解能力。此外,数据增广还可以通过添加噪声或模糊效果来模拟 真实世界中的不确定性,进一步提高模型的鲁棒性。本文中原数据集医学图像张数为 3000 张,为了训练模型需将 3000 张图片全部作为训练集并抽取其中 1000 张为测试集。
39
通过数据增广的方法我们可将远数据集增广为原来的五倍,即为 15000 张医学图片,其 中我们将 12000 张图片为训练集, 3000 张图片为测试集,此操作可防止网络模型训练时 产生过拟合现象,同时我们通过 DenseNet block 模块每层的通道级连接操作进一步降低 过拟合现象。
图像由像素组成,每个像素包括灰度级和位置,直方图用于统计图像中同一灰度级 的像素个数。假设图像的大小为MXN,则图像像素在每个灰度级的概率p (i)的计算 如公式( 4-9)所示:
P(i)=鵲,°GSR-1 (4-9)
其中S (i)表示灰度级为i的像素个数,R表示灰度等级。
医学图像具有独立的特点,人体的每个部位都有不同的特征,简单的自然图像数据 增强操作不适用于医学图像。通过简单的旋转和平移操作增强的图片没有医学意义,对 网络训练也没有帮助。因此本文在AutoAugment的基础加入直方图均衡化来提高图像对 比度和增强医学图像中的复杂细节,并使用 Scharr 算子来解决医学图像数据增广时产生 的细节模糊和对比度低的问题。用此方法对 AD 数据集进行数据增广,每张图像可扩充 出 4 张仍具有医学特征的图像,结果如图 4-8 所示。
 
图 4-8 医学图像数据增强示例
 
4.3.2基于脑部疾病阿尔兹海默症的辅助分类
为了证明该模型的有效性,本文选择了具有更好的医学图像分类效果的几个网络,
包括 ResNet50[54]、 ResNet101 [54]、 DenseNet161 [55]、 DenseNet201 [55]、 GoogleNet[96]、
EfficientNetV2-m[97]> EfHcientNetV2-s[97],MobilenetV3-large[98]在阿尔兹海默症数据集上
40
进行分类测试比较,其中 SWA-Net98 与 SWA-Net168 为本文提出的脑部辅助分类诊断网 络,其分别代表网络深度设置的不同。分类实验客观评估指标值如表 4-1 所示,本文提 出的模型与常见医学图像分类效果较好的模型在阿尔兹海默症脑部图像数据集验证集 上的分类性能比较。结果显示本章的模型分类精度优于其他模型,并在准确性和计算(即 参数和FLOPs)操作之间实现了更好的权衡,在分类的准确度上,本文的方法精度值也 达到了最高,分别达到了 95.39%与 96.12%,准确度相较于目前常用医学图像分类网络 有了较好的提升。且 SWA-Net168 相比于 SWA-Net98 分类精度更高,这也表明了适当加 深网络深度可以更好地拟合特征。综上所述,可证明本文提出的脑部疾病分类网络在实 验中获得了良好的结果。
表 4-1 SWA-Net 与常见医学图像分类模型分类性能比较
Model #Params(M) FLOPs(B) Top1-Acc(%)
ResNet50 23.5 4.16 92.37
ResNet101 42.74 7.83 93.53
DenseNet161 26.53 7.75 91.68
DenseNet201 18.11 4.33 92.26
GoogLeNet 9.9 1.52 90.53
EfficientNetV2-m 52.9 5.45 94.41
EfficientNetV2-s 20.2 2.91 94.07
MobileNetV3 large 4.2 2.3 93.69
SWA-Net98(Ours) 14.36 4.35 95.39
SWA-Net168(Ours) 16.83 4.79 96.12
 
4.3.3消融实验
本节设计了三组消融实验来说明提出的 SWA-Net 网络中加入数据增强、注意力模 块的有效性以及 DenseNet Block 的设计合理性,通过实验以证实本文提出工作的有效性, 实验在 SWA-Net168 模型中测试,表 4-2 展示了三组消融实验的结果。
(1)w/o DataAug 消融实验:在网络训练过程中移除数据增强操作,直接用原始
AD数据集进行训练,如表4-2指标所示,FLOPs(B)数值没有变化,Top1-Acc精度有所 降低,性能显著下降,这表明数据增强可以有效地增强原始数据集以提高准确性,减少 训练过程中过拟合现象并使网络更加泛化。
( 2)w/o Attention 消融实验:去掉本文设计的注意力模块,如表 4-2 所示, SWA-Net 在消除注意力模块后FLOPs(B)值略有下降,说明算法复杂度降低,Top1-Acc精度降低, 证明性能下降,这表明注意力模块提取医学图像特征的有效性,且 CNN 和注意力机制
41
 
的结合可以增强特征的表示。
(3) w/o DB消融实验:消除网络模型中的DenseNet Block,如表4-2所示,FLOPs(B) 值上升,说明算法复杂度增加,因为消除了 DenseNetBlock,必须用卷积层替换它才能 提取相同级别的特征。 Top1-Acc 精度降为实验最低值,表示网络性能显著下降,由实验 结果可知,本文提出的 SWA-Net 网络对于提高阿尔兹海默症分类精度是有效的。
表 4-2 消融实验
 
4.79 96.12
4.79 94.59
4.54 94.42
5.31 93.72
4.4本章小结
在本章中,提出了一种脑部疾病辅助分类任务的卷积网络模型。它在降低计算量的 同时提高了分类精度,同时具有很强的鲁棒性。同时针对医学图像数据集小的问题改进 了一种数据增强方法,以减少训练过程中产生过拟合现象。事实上,本文提出的网络模 型可以应用于更广泛的自然图像分类以及医学图像的各种疾病分类。未来将在图像细粒 度和多类分类方面进行更多的研究,并尝试将研究成果应用于计算机辅助临床诊断。
42
第五章 结论与展望
5.1结论
医学图像是现代医学诊疗过程中的主要依据之一,可反映人体内部的结构影像。医 学图像是临床诊疗过程中一种常用的辅助方法,具有不可忽视的作用,近年来医学成像 技术在临床诊断、治疗方案、诊后复查评价等方面应用的尤为广泛。通过预处理后的医 学图像各器官的边缘特征会更加清晰,帮助医生更加有效地判断病灶位置以及疾病情况, 提升医生诊疗效率。因此利用计算机辅助技术进行医学图像处理是十分重要的。
本文完成的工作如下:
(1)现有的方法大多侧重于两种模态的融合,事实上,对于需要三模态融合辅助 诊断的疾病是很常见的。本文提出了一种高精度多模态医学图像融合网络,适用于三模 态及两模态融合。根据医学图像中解剖图像和功能图像的信息特征,提出了全局纹理模 块和局部细节模块进行特征提取。融合策略加入傅里叶变换充分结合了空间域和频域的 优势,保留了更完整的纹理细节信息和全局轮廓信息。同时本文提出了多注意力机制, 提取更有效的深度特征和更准确的位置信息。实验结果表明,该方法在主观视觉和客观 指标评价上均有效,能够极大提高医生定位病灶的效率。
(2)医学图像领域大多直接基于自然图像分类网络进行分类处理,由于自然图像 与医学图像的成像区别导致分类精度不够,因此本文基于 DenseNet 网络进行改进,提 出了一种改进的分类卷积网络一一SWA-Net。设计了基于注意力机制的轻量级残差模块 来有效地提取更多的深度特征并捕获医学图像中的特征依赖性,融合高级语义特征和低 级语义特征。同时对数据集进行数据增广以减少网络训练产生过拟合现象,经实验证明 SWA-Net 能以较低的参数和 FLOPs 达到较好的分类效果。
5.2展望
随着深度学习技术在在医学图像处理中的广泛应用,医学图像处理的要求也随之增 加。由于医学图像数据对于病患来说具有隐私性,未来科研人员应该进一步研究深度学 习方法,解决小样本以及更加复杂的医疗数据。医学图像处理也应进行更广泛的学科交 叉融合,来提升医学图像处理技术,在临床上发挥更多的作用。未来的探索和研究工作 主要从以下两个方面上考虑:
43
(1)目前的医学图像的相关研究工作大都依据 2D 图像展开,随着深度学习神经网 络的不断完善,处理更加复杂的图像数据集是一个巨大的挑战, 3D 图像数据集包含更 多信息,处理难度大,未来会将科研方向转向 3D 图像处理。
(2)医学图像数据不断增加,但是基于医学信息的敏感性、私密性,导致医学图 像数据获取较难,网络模型的可迁移性较差,提出的各模型受限于实验数据集,对于临 床诊断来说可实施性较差,未来将致力于网络模型的可迁移化研究。
44
参考文献
[1]郭凯.基于深度学习的医学图像融合模型研究[D].吉林大学,2022.
[2]周涛,刘珊,董雅丽,霍兵强,马宗军.多尺度变换像素级医学图像融合:研究进展、应用 和挑战J].中国图象图形学报,2021,26(09).
[3]Wen J, Thibeau-Sutre E, Diaz-Melo M, et al. Convolutional neural networks for classification of Alzheimer's disease: Overview and reproducible evaluation[J]. Medical Image Analysis, 2020, 63:101694.
[4]Jack C R, Petersen R C, Xu Y C, et al. Prediction of AD with MRI-based hippocampal volume in mild cognitive impairment[J]. Neurology, 1999, 52(7) : 1397-1397.
[5]Ashburner J, Friston K J. Voxel-based morphometry—the methods[J]. Neuroimage, 2000, 11(6): 805-821.
[6]Montagne A, Barnes S R, Sweeney M D, et al. Blood-brain barrier breakdown in the aging human hippocampus[J]. Neuron, 2015, 85(2): 296-302.
[7]Aderghal K, Boissenin M, Benois-Pineau J, et al. Classification of sMRI for AD diagnosis with convolutional neuronal networks: A pilot 2-D+c study on ADNI[A]. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C]. 2016: 690-701.
[8]Li S, Kang X, Fang L, et al. Pixel-level image fusion: Asurvey of the state of the art[J]. information Fusion, 2017, 33: 100-112.
[9]Du J, Li W, Xiao B, et al. Union Laplacian pyramid with multiple features for medical image fusion[J]. Neurocomputing, 2016, 194: 326-339.
[10]ToetA. A morphological pyramidal image decomposition[J]. Pattern recognition letters, 1989, 9(4): 255-261.
[11]Singh R, Khare A. Fusion of multimodal medical images using Daubechies complex wavelet transform-A multiresolution approach[J]. Information fusion, 2014, 19: 49-60.
[12]Zhang Z, Blum R S. A categorization of multiscale-decomposition-based image fusion schemes with a performance study for a digital camera application[J]. Proceedings of the IEEE, 1999, 87(8): 1315-1326.
[13]Qu G, Zhang D, Yan P. Medical image fusion by wavelet transform modulus maxima[J].
45
Optics Express, 2001, 9(4): 184-190.
[14]Bhatnagar G, Wu Q M J, Liu Z. Directive contrast based multimodal medical image fusion in NSCT domain[J]. IEEE transactions on multimedia, 2013, 15(5): 1014-1024.
[15]Li T, Wang Y. Biological image fusion using a NSCT based variable-weight method[J]. Information Fusion, 2011, 12(2): 85-92.
[16]Wang L, Li B, Tian L. Multi-modal medical image fusion using the inter-scale and intra-scale dependencies between image shift-invariant shearlet coefficients[J]. Information fusion, 2014, 19: 20-28.
[17]Li S, Kang X, Hu J. Image fusion with guided filtering[J]. IEEE Transactions on Image processing, 2013, 22(7): 2864-2875.
[18]Liu Y, Yang J, Sun J. PET/CT medical image fusion algorithm based on multiwavelet transform[C]//2010 2nd International Conference on Advanced Computer Control. IEEE, 2010, 2: 264-268.
[19]Liu Y, Liu S, Wang Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information fusion, 2015, 24: 147-164.
[20]Yang B, Li S. Multifocus image fusion and restoration with sparse representation[J]. IEEE transactions on Instrumentation and Measurement, 2009, 59(4): 884-892.
[21]Liu Y, Chen X, Ward R K, et al. Image fusion with convolutional sparse representation[J]. IEEE signal processing letters, 2016, 23(12): 1882-1886.
[22]Yu N, Qiu T, Bi F, et al. Image features extraction and fusion based on joint sparse representation[J]. IEEE Journal of selected topics in signal processing, 2011, 5(5): 1074-1082.
[23]Lahoud F, Susstrunk S. Zero-learning fast medical image fusion[C]//2019 22th International Conference on Information Fusion (FUSION). IEEE, 2019: 1-8.
[24]Li H, Wu X J, Kittler J. Infrared and Visible Image Fusion using a Deep Learning Framework[A]. Proceedings - International Conference on Pattern Recognition[C]. 2018: 2705-2710.
[25]Ma J, Xu H, Jiang J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image
46
Processing, 2020, 29: 4980-4995.
[26]Kumar N, Hoffmann N, Oelschlagel M, et al. Structural Similarity Based Anatomical and Functional Brain Imaging Fusion[A]. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)[C]. 2019: 121-129.
[27]Zhang Y, Liu Y, Sun P, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99-118.
[28]Li H, Wu X J, Durrani T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656.
[29]Riegel A C, Berson A M, Destian S, et al. Variability of gross tumor volume delineation in head-and-neck cancer using CT and PET/CT fusion[J]. International Journal of Radiation Oncology* Biology* Physics, 2006, 65(3): 726-732.
[30]Grosu A L, Weber W A, Riedel E, et al. L-(methyl-11C) methionine positron emission tomography for target delineation in resected high-grade gliomas before radiotherapy[J]. International Journal of Radiation Oncology* Biology* Physics, 2005, 63(1): 64-74.
[31]Grosu A L, Weber W A, Astner S T, et al. 11C-methionine PET improves the target volume delineation of meningiomas treated with stereotactic fractionated radiotherapy[J]. International Journal of Radiation Oncology* Biology* Physics, 2006, 66(2): 339-344.
[32]Lahoud F, Susstrunk S. Zero-Learning Fast Medical Image Fusion[A]. FUSION 2019 - 22nd International Conference on Information Fusion[C]. 2019: 1-8.
[33]Jin X, Chen G, Hou J, et al. Multimodal sensor medical image fusion based on nonsubsampled shearlet transform and S-PCNNs in HSV space[J]. Signal Processing, 2018, 153: 379-395.
[34]Litjens G, Kooi T, Bejnordi B E, et al. A survey on deep learning in medical image analysis[J]. Medical image analysis, 2017, 42: 60-88.
[35]Lee J G, Jun S, Cho YW, et al. Deep learning in medical imaging: general overview[J].
47
Korean journal of radiology, 2017, 18(4): 570-584.
[36]Esteva A, Chou K, Yeung S, et al. Deep learning-enabled medical computer vision[J]. NPJ digital medicine, 2021, 4(1): 5.
[37]Ahammad S H, Rajesh V, Jafar Khan P, et al. Chexnet reimplementation for pneumonia detection using pytorch[J]. International Journal of Pharmaceutical Research, 2020, 12(2).
[38]Bhandary A, Prabhu GA, Rajinikanth V, et al. Deep-learning framework to detect lung abnormality—A study with chest X-Ray and lung CT scan images[J]. Pattern Recognition Letters, 2020, 129: 271-278.
[39]Grewal M, Srivastava M M, Kumar P, et al. Radnet: Radiologist level accuracy using deep learning for hemorrhage detection in ct scans[C]//2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018). IEEE, 2018: 281-284.
[40]Lakshmanaprabu S K, Mohanty S N, Shankar K, et al. Optimal deep learning model for classification of lung cancer on CT images[J]. Future Generation Computer Systems, 2019, 92: 374-382.
[41]Korolev S, Safiullin A, Belyaev M, et al. Residual and plain convolutional neural networks for 3D brain MRI classification[C]//2017 IEEE 14th international symposium on biomedical imaging (ISBI 2017). IEEE, 2017: 835-838.
[42]李莉,木拉提,哈米提.医学影像数据分类方法研究综述[J].中国医学物理学 杂志, 2011 (6): 3007-3011.
[43]Neath R C, Johnson M S. Discrimination and classification[A]. 见 : International Encyclopedia of Education[M]. 2010:135-141.
[44]Johnson N L, Anderson T W. Introduction to Multivariate Statistical Analysis.[J]. Journal of the Royal Statistical Society. Series A (General), 1958, 121(4).
[45]Chang T, Kuo C C J. Texture analysis and classification with tree-structured wavelet transform[J]. IEEE Transactions on image processing, 1993, 2(4): 429-441.
[46]Chen C H, Lee G G. Image segmentation using multiresolution wavelet analysis and expectation-maximization (EM) algorithm for digital mammography[J]. International journal of imaging systems and Technology, 1997, 8(5): 491-504.
48
[47]Li H, Liu K J R, Lo S C B. Fractal modeling and segmentation for the enhancement of microcalcifications in digital mammograms[J]. IEEE transactions on medical imaging, 1997, 16(6): 785-798.
[48]何克磊•基于深度学习的医学图像处理问题研究[D].南京大学,2018.
[49]Liu M, Zhang J, Adeli E, et al. Joint classification and regression via deep multi-task multi-channel learning for Alzheimer's disease diagnosis[J]. IEEE Transactions on Biomedical Engineering, 2018, 66(5): 1195-1206.
[50]Bringas S, Salomon S, Duque R, et al. Alzheimer's disease stage identification using deep learning models[J]. Journal of Biomedical Informatics, 2020, 109: 103514.
[51]Shehata M, Khalifa F, Soliman A, et al. Computer-aided diagnostic system for early detection of acute renal transplant rejection using diffusion-weighted MRI[J]. IEEE Transactions on Biomedical Engineering, 2018, 66(2): 539-552.
[52]Lei B, Chen S, Ni D, et al. Discriminative learning for Alzheimer's disease diagnosis via canonical correlation analysis and multimodal fusion[J]. Frontiers in aging neuroscience, 2016, 8: 77.
[53]Fang X, Liu Z, Xu M. Ensemble of deep convolutional neural networks based multi-modality images for Alzheimer's disease diagnosisJ]. IET Image Processing, 2020, 14(2): 318-326.
[54]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[55]Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.
[56]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[57]蒋健,钦旗,张海波,郭文平•多卷积神经网络在医学图像分类中的应用研究[J].福 建电脑,2022,38(06).
[58]Xie S, Girshick R, Dollar P, et al. Aggregated residual transformations for deep neural
49
networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.
[59]Arevalo J, Gonzalez F A, Ramos-Pollan R, et al. Representation learning for mammography mass lesion classification with convolutional neural networks[J]. Computer methods and programs in biomedicine, 2016, 127: 248-257.
[60]陈禹宏.基于点云,体素融合的多尺度几何深度学习方法研究[D].广州大学, 2022.
[61]Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. pmlr, 2015: 448-456.
[62]Ju H, Bassett D S. Dynamic representations in networked neural systems[J]. Nature Neuroscience, 2020, 23(8): 908-917.
[63]Hayhoe M, Ballard D. Eye movements in natural behavior[J]. Trends in cognitive sciences, 2005, 9(4): 188-194.
[64]Corbetta M, Shulman G L. Control of goal-directed and stimulus-driven attention in the brain[J]. Nature reviews neuroscience, 2002, 3(3): 201-215.
[65]Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.
[66]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23—28, 2020, Proceedings, Part I 16. Springer International Publishing, 2020: 213-229.
[67]Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 764-773.
[68]Yuan Y, Huang L, Guo J, et al. OCNet: Object context for semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(8): 2375-2398.
[69]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 3146-3154.
50
[70]Zhao G, Feng Q, Chen C, et al. Diagnose like a radiologist: Hybrid neuro-probabilistic reasoning for attribute-based medical image diagnosis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(11): 7400-7416.
[71]Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//International conference on machine learning. PMLR, 2019: 7354-7363.
[72]Gregor K, Danihelka I, Graves A, et al. Draw: A recurrent neural network for image generation[C]//International conference on machine learning. PMLR, 2015: 1462-1471.
[73]Xie S, Liu S, Chen Z, et al. Attentional shapecontextnet for point cloud recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4606-4615.
[74]Guo M H, Cai J X, Liu Z N, et al. Pct: Point cloud transformer[J]. Computational Visual Media, 2021, 7: 187-199.
[75]Xu T, Zhang P, Huang Q, et al. Attngan: Fine-grained text to image generation with attentional generative adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1316-1324.
[76]Liu Y, Chen X, Cheng J, et al. A medical image fusion method based on convolutional neural networks[C]//2017 20th international conference on information fusion (Fusion). IEEE, 2017: 1-7.
[77]Hermessi H, Mourali O, Zagrouba E. Convolutional neural network-based multimodal image fusion via similarity learning in the shearlet domain[J]. Neural Computing and Applications, 2018, 30: 2029-2045.
[78]Zhao M, Peng Y. A multi-module medical image fusion method based on non-subsampled shear wave transformation and convolutional neural network[J]. Sensing and Imaging, 2021, 22(1): 9.
[79]Xia K, Yin H, Wang J. A novel improved deep convolutional neural network model for medical image fusion[J]. Cluster Computing, 2019, 22: 1515-1527.
[80]Hou R, Zhou D, Nie R, et al. Brain CT and MRI medical image fusion using convolutional neural networks and a dual-channel spiking cortical model[J]. Medical & biological engineering & computing, 2019, 57: 887-900.
51
[81]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[82]Tang W, Liu Y, Zhang C, et al. Green Fluorescent Protein and Phase-Contrast Image Fusion via Generative Adversarial Networks[J]. Computational and Mathematical Methods in Medicine, 2019, 2019.
[83]Kang J, Lu W, Zhang W. Fusion of brain PET and MRI images using tissue-aware conditional generative adversarial network with joint loss[J]. IEEE Access, 2020, 8: 6368-6378.
[84]Nahid A Al, Mehrabi M A, Kong Y. Histopathological breast cancer image classification by deep neural network techniques guided by local clustering[J]. BioMed Research International, 2018, 2018.
[85]Van Ginneken B, Setio A A A, Jacobs C, et al. Off-the-shelf convolutional neural network features for pulmonary nodule detection in computed tomography scans[C]//2015 IEEE 12th International symposium on biomedical imaging (ISBI). IEEE, 2015: 286-289.
[86]Abdel-Zaher A M, Eldeib A M. Breast cancer classification using deep belief networks[J]. Expert Systems withApplications, 2016, 46: 139-144.
[87]Suk H I, Lee S W, Shen D, et al. Hierarchical feature representation and multimodal fusion with deep learning for AD/MCI diagnosis[J]. NeuroImage, 2014, 101: 569-582.
[88]Xie X, Niu J, Liu X, et al. A survey on incorporating domain knowledge into deep learning for medical image analysis[J]. Medical Image Analysis, 2021, 69: 101985.
[89]Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7794-7803.
[90]Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.
[91]Hu J, Shen L, Albanie S, et al. Gather-excite: Exploiting feature context in convolutional neural networks[J]. Advances in neural information processing systems, 2018, 31.
52
[92]Wang F, Jiang M, Qian C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 3156-3164.
[93]Guo M-H, Lu C-Z, Liu Z-N, et al. Visual attention network[J]. arXiv preprint arXiv:2202.09741, 2022.
[94]Cubuk E D, Zoph B, Mane D, et al. Autoaugment: Learning augmentation strategies from data[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 113-123.
[95]Leung K K, Clarkson M J, Bartlett J W, et al. Robust atrophy rate measurement in Alzheimer's disease using multi-site serial MRI: tissue-specific intensity normalization and parameter selection[J]. Neuroimage, 2010, 50(2): 516-523.
[96]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.
[97]Tan M, Le Q. Efficientnetv2: Smaller models and faster training[A]. International conference on machine learning[C]. PMLR, 2021: 10096—10106.
[98]Howard A, Sandler M, Chu G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 1314-1324.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9193.html

上一篇:面向医学影像的轻量级数据遗忘技术

下一篇:没有了

相关标签: