1. 网站地图
  2. 设为首页
  3. 关于我们


基于深度学习的医学影像病灶 检测算法研究

发布时间:2023-09-20 14:25
目录
第一章绪论 1
1.1研究背景与意义 1
1.2国内外研究现状 2
1.2.1基于深度学习的病灶检测研究现状 2
1.2.2可解释性方法研究现状 2
1.3本文的主要工作 3
1.4本文结构安排 4
第二章基于深度学习的病灶检测相关技术概述 5
2.1深度学习相关算法 5
2.1.1卷积神经网络 5
2.1.2注意力机制 9
2.1.3可解释性方法 10
2.2目标检测任务 12
2.2.1传统检测方法 13
2.2.2基于深度学习方法 15
2.2.3目标检测评判标准 17
2.3本章小结 19
第三章使用空间注意力叠加和多层特征融合改进病灶检测 20
3.1SAS-MFF-YOLO病灶检测模型 20
3.1.1空间注意力叠加模块 20
3.1.2多层特征融合模块 21
3.1.3模型整体结构 22
3.2实验、结果与分析 23
3.2.1数据集 23
3.2.2实验参数设置 24
3.2.3实验结果 24
3.2.4分析讨论 26
3.3本章小结 30
第四章引入可解释性模型提升病灶检测效果 31
4.1SProtoPNet 模型 31
4.1.1卷积层 31
4.1.2原型层 32
4.1.3分类层 33
4.2实验、结果与分析 34
4.2.1数据集 34
4.2.2实验参数设置 34
4.2.3结果与分析 34
4.3本章小结 37
第五章总结与展望 38
5.1研究总结 38
5.2研究展望 38
参考文献 40
攻读硕士学位期间发表论文、获奖及申请发明专利情况 44
致谢 45
第一章绪论
1.1研究背景与意义
随着医学影像技术的快速发展,医学影像(MedicalImage, MI)数据量急剧 增长,影像医生面临重大挑战。繁杂的影像数据使得影像医生的工作变得更加繁 琐和复杂,需要花费更多的时间和精力进行分析和判断。同时,由于医疗工作的 特殊性,影像医生必须在高压力的环境下进行工作,易出现误诊、漏诊等现象⑴。
人工智能诊断具有效率高、成本低等优点。利用人工智能技术对医学影像进 行病灶检测,可以提高医生的工作效率,缓解医院的压力⑵。同时,对于偏远地 区医疗资源匮乏、医生经验不足,以及医院缺乏高端医疗设备等情况,人工智能 病灶检测的应用更加具有实际意义。这种技术可以缓解医务人员仅依靠自身临床 经验来诊断患者疾病的困境,从而有助于解决医疗资源分布不均的问题。
随着计算机科学的快速发展,相关研究人员已经提出了各种基于人工智能的 病灶自动检测方法MH。然而,在这些智能诊断系统在实际投入使用之前,仍需 要在某些方面进行进一步的研究。例如,给定基于深度学习的诊断模型,需要确 认该模型可以检测到疾病相关病变,并将其作为病灶检测的基础,以便做出可靠 的决策QI。
在典型的基于深度学习的医学影像诊断模型中,决策是基于特征图(在神经 网络层中也称为通道)生成的,这些特征图是通过应用过滤器(filters)或特征检 测器(featuredetectors),从输入的医学影像或先前层的输出生成的。特征图捕获 医学影像中不同类型的特征。分类器的性能在很大程度上取决于特征映射是否可 以捕获分类任务的有用特征。因此,为了诊断疾病,应利用的特征是病变及其在 医学影像中的位置。
同时,在医学影像检测领域,模型的检测结果往往关系到人类的生命健康, 而且过于复杂且透明度较低的模型,使医生无法判断最终结果的可信度和合理性, 也使得开发人员无法从根本上提高模型的性能。因此,检测模型不仅需要拥有较 高的准确性,而且需要推理过程的可解释。在当下的研究中,有许多新发表的工 作都声称可以在病灶检测任务上取得良好的性能。然而很少有研究能从实际的角 度理解模型得出结论的原因。因此,为提高模型病灶检测的性能,同时提高模型 的可解释性。基于以上分析,本文提出了使用空间注意力叠加和多层特征融合的 SAS-MFF-YOLO病灶检测模型,并在此基础上提出了具有较强可解释性的 SProtoPNet病灶检测模型。
1.2国内外研究现状
1.2.1基于深度学习的病灶检测研究现状
Rajpurkar等人卩3】提出了一种名为CheXNet的卷积神经网络(Convolutional Neural Networks, CNN),可以对14种肺部疾病进行分类。然而,这项工作只预 测了疾病种类的可能性,未提供病变的位置信息。Sirazitdinov等人冋使用几个 基线深度学习模型对RSNA提供的数据集进行了比较实验,并调查了不平衡类 别的问题。Jaiswal等人W利用Mask R-CNN网络框架来识别和定位病变区域。 然而,训练过程很复杂,需要大量的计算,无法在实践中使用。Yao等人[⑹探讨 了标签之间的统计相关性对做出更准确预测的有用性。然而,他们的方法无法区 分医学影像中不同疾病的相似特征,其方法的准确度仅达到71.3%O Wang等人 "I构建了一个多标记的医学影像数据集Chest X-ray8,并探索了各种深度卷积神 经网络,以对八种肺部疾病进行诊断,但其分类器的性能非常有限。
在检测领域,为提高分类器的性能,要求模型不仅要从全局的角度把握图像, 更要关注某个局部信息。Xu等人[国将注意力机制应用到图像领域,提出一种新 的框架。该框架使用卷积神经网络从图像中提取特征,并使用注意力机制对图像 中不同部分进行关注,然后将注意力权重与先前的语义信息结合生成图像描述。 但该模型泛化能力不强,对于复杂场景的图像生成质量可能会有所下降oMnih等 人提出了一种基于循环神经网络的视觉注意力模型。该模型可以动态地关 注输入图像的不同部分,并根据关注的位置生成不同的输出。但是,较长的训练 时间和较大的计算量,这限制了其在实际应用中的使用。Fu等人㈤]提出了一种 基于双重注意力机制的场景分割模型。该模型使用自注意力机制和全局注意力机 制对输入图像的不同部分进行关注,但同时双重注意力机制提高了计算开销。
1.2.2可解释性方法研究现状
可解释性方法包括事前可解释性建模和事后可解释性分析。对于事前可解释 性建模,C11U等人0]提出使用分段线性激活函数作为神经网络的激活函数,该方 法使用一组参数化的线性模型来逼近神经网络的每个分段线性函数,从而使得整 个神经网络的行为可以被更容易地理解和解释。Fan等人【22]提出一种新型自编码 器,编码层的激活函数是通过自适应软阈值单元实现,相当于在编码层添加了一 层非线性转换,而解码层通过线性单元实现,使得网络具有可解释性。在事后可 解释性分析中,早期,Eriian等人[2习通过卷积最大化的方法,寻找深度模型中高 级特征的定性解释,探索了深度网络的工作原理。MD等人Bl使用反卷积的办法, 将卷积神经网络中的特征映射反向映射回输入图像空间,从而进行可视化,帮助 人们更好地理解卷积神经网络的内部工作原理。然而,所有这些事后可视化方法 都无法解释网络做出决策的推理过程。
也有研究人员将基于注意力的可解释性模型构建到卷积神经网络中。这些模 型旨在揭示网络在做出决策时关注的输入部分。Jiang等人©I提出了一种基于深 度学习的多标签模型,用于对病变进行分类。采用了一种叫做CAM”的 方法,用于解释模型的分类结果。通过这种方法,可以可视化模型关注的区域, 从而更好地理解模型的决策过程。Cai等人必]开发了一个人工智能决策支持系统, 以注意力机叠加的形式在图像上呈现其预测结果,使得模型的预测结果更具可解 释性。能够更好地满足医务人员的学习需求,提高其接受度和使用效果。Draelos 等人旳提出了一种新颖的标签特定注意力机制,将局部区域的注意力信息传递 到更高分辨率的层次上,从而提高了模型的可解释性和分类准确性。然而,基于 注意力的模型只能告诉研究人员网络正在查看输入的哪些部分。
最近的研究尝试通过测量高度激活的图像区域和标记的视觉概念之间的重 叠来量化卷积神经网络中视觉表示的可解释性[28][29]o然而,要定量测量网络中卷 积单元的可解释性,需要针对特定于网络目的的非常大的数据集进行细粒度标记。 现有的用于分类网络的数据集曲并不适合测量经过分类训练网络的单元可解释 性。
1.3本文的主要工作
尽管目前有一系列的研究致力于提高病灶检测模型的整体性能,但生成能够 体现病变及其位置的特征图仍然具有挑战性和研究不足。同时也存在模型可解释 性不强,结果可信度不高等问题。
本文的主要工作可以总结如下:
(1) 为突出与病灶分类任务相关的重要内在特征,本文设计了一个利用通 道和空间注意机制的空间注意力叠加模块用于识别病灶的内在成像特征,并且设 计了多层特征融合模块用于协调来自不同通道的不同特征并强调重要信息。将这 两个模块连接起来以提取关键图像特征,作为疾病诊断的基础。
(2) 为提高模型病灶检测的性能,本文将所提出的模块嵌入基线神经网络, 并开发了一种名为SAS-MFF-YOLO的模型来检测病灶。为了验证模型的有效性, 对北美放射学会(RSNA)和AI研习社提供的两个数据集进行了大量实验。SAS- MFF-YLO在AI研习社数据集上实现了 8&1%的精确率和98.2%召回率,AP50为 99%O中间特征图的可视化表明,该方法可以促进发现医学影像中的相关病变。
(3) 为证明模块的鲁棒性,同时为提高模型的可解释性,本文设计了 SProtoPNet检测病灶,该模型模拟人的分类逻辑进行图像推理,具有较强的可解 释性。为验证模型的有效性,在Chest X-rayl4数据集上进行了实验。研究结果 表明,该方法可用于提高医学影像病灶检测的性能,并提高模型的可解释性。
1.4本文结构安排
文章内容结构分为五个章节,内各个章节内容安排如下:
第一章介绍了病灶检测在实际领域的研究背景和意义。对国内外相关的研究 工作进行了简单的研究和分析,并说明了本文的检测模型和检测结果。
第二章介绍了与病灶检测相关的重要技术,介绍了深度学习的相关算法,目 标检测任务中的典型模型,并对关键部分给出了详细说明,最后介绍了目标检测 任务中主要的评判标准。
第三章介绍了从空间特征角度出发的SAS-MFF-YOLO检测模型结构,并对 网络的每一部分进行了介绍和分析,并详细的阐述了 SAS-MFF-YOLO模块的实 现细节。描述了实验过程与结果,并对实验结果可视化进行了详细分析与讨论。
第四章介绍了 SProtoPNet的整体结构和本文提出的两个模块在SProtoPNet 中的使用,以及算法的详细流程和实验结果。
第五章为对本文工作内容的总结和展望,给出了本文的创新性与不足,对未 来的工作进行展望。
 
第二章 基于深度学习的病灶检测相关技术概述
2.1深度学习相关算法
深度学习在各种计算机视觉任务中发挥着重要作用,在医学影像诊断领域同 样得到了广泛应用。本研究涉及的深度学习算法包括卷积神经网络、注意力机制 和可解释性方法等。
2.1.1卷积神经网络
卷积神经网络(Convolutional Neural Networks, CNN)是计算机视觉领域最 重要的一项技术。其中的卷积操作非常适合处理图像相关的数据:通过卷积核感 知处理图像,然后把处理得到的局部信息进行汇总从而获取全局信息。同时,在 这一过程中使用相同的卷积核,即使用相同的参数。从而减少参数数量,加快网 络的运行速度。
如图2.1所示,以AlexNet^30]为例,卷积神经网络主要由卷积层、池化层、 以及全连接层组成。
 
图2.1 AlexNet结构图(由5层卷积层、3层池化层和2层全连接层组成)
(1)卷积(Convolution)层
卷积层是深度学习模型中常用的一种层级结构,由多个可学习的卷积核组成。 该层通过对上一层的输出特征进行卷积操作,即对输入项和卷积核进行点积运算, 并应用激活函数生成多个输出特征图。每个输出特征图是由卷积多个输入特征图 的结果组合而成的。卷积层I的第j单元的输出值aj的计算为公式2-1 o
沪产(对+》矿*丿.) (2-1)
 
其中M/表示选择的输入特征图的集合,席)表示可学习的卷积核。/()为 激活函数。图2.2展示了卷积层的具体操作过程。
 
2 = ReLU(l xl + lxl + OxO + Oxl)
图2.2卷积层的计算过程
图2.2中使用的激活函数为ReLU函数。ReLU函数是近些年研究中使用较
多的激活函数,函数图像如图2.3所示。
 
其计算方式如公式2-2所示:
ReL U(x) = max^O, %) (2-2)
由图2.3可知,ReLU是一个分段线性函数:当输入小于或等于0时,ReLU 输出为0;当输入大于0时,ReLU函数的输出等于输入值。相相较于其他激活 函数,ReLU函数的表达式非常简单,计算速度快,并且不会引发梯度消失的问 题。虽然ReLU函数存在一些缺陷,例如在使用过程中部分神经元可能永远不会 被激活,导致参数冗余和性能无法调节至最优等问题,但是仍然是当前大多数研 究者在搭建深度神经网络时经常采用的激活函数之一。
除上述的ReLU函数外,卷积神经网络通常使用的激活函数还有Sigmoid 函数和tanh函数。
 
Sigmoid函数是卷积神经网络研究中最初使用的激活函数。也叫S型增长曲 线,函数图像如图2.4所示。
 
 
 
其计算方式如公式2・3所示:
1
*) = 177^ (2_3)
由图2.4可知,在网络层数较少时,Sigmoid函数的特性能够很好的满足激 活函数的需要:它把一个实数压缩至0到1之间,当输入的数字较大,结果接近 1;当输入为较小的负数时,则会得到接近0的结果。这种特性,能够很好的模 拟神经元在受刺激后,是否被激活向后传递信息(输出为1,完全被激活;输出 为0,几乎不被激活)。
tanh函数与Sigmoid函数一样,都是在早期的卷积神经网络研究中较为常 用的激活函数,也叫双切正切曲线。其函数图像如图2.5所示。
 
 
 
其计算方式如公式2・4所示:
 
相较于Sigmoid函数,tanh函数收敛速度更快。但该函数还是陷入到梯度消 失的问题中,同时更多幕函数的加入使其运算更加复杂。
(2)池化((Pooling))层
在执行卷积操作后,通常会带来这样一个问题,那就是多通道的过滤器带来 过多的参数。过多的参数必然导致模型的过拟合。为避免这一问题,池化层应运 而生。池化通常有两种方式即平均池化(Max Pooling)和最大池化(Max Pooling 其操作如图2.6所示,将一个4X4的区域池化为2X2的区域,从而大大降低参 数量。
 
图2.6池化操作
平均池化操作如图2.6(a)所示,池化窗口为2X2,步长为2,每次对池化窗 口覆盖的区域进行取平均操作,得到平均池化后的像素值。最大池化操作如图 2.6(b)所示,池化参数与平均池化相同,每次对池化窗口覆盖的区域进行取最大 值操作,得到最大池化后的像素值。
(3)全连接(Full Connected)层
全连接层可以将高维的数据有效地进行降维,从而能保留有用的信息。其本 质上是矩阵乘法再加上偏差。通常位于分类模型的最后一层,作用是对提取得特 征进行分类。如图2.7所示
 
 
 
图2.7全连接层
除此之外,可以将原始特征映射到各个隐语义节点。但是全连接层也存在一 些缺点,比如无法保持空间结构。
2.1.2注意力机制
注意力(Attention)机制即聚焦局部信息的机制,广泛应用于计算机视觉、 自然语言处理等领域。在计算机视觉领域中,注意力机制模仿生物的观察逻辑, 使视觉处理系统倾向于有选择地关注图像的某些部分,而忽略其他无关的信息。
为了节省计算资源,注意力机制从输入信息中,选取和目标任务相关的信息 输入神经网络。如图2.8所示,注意力机制的计算可以两种模式。
(亦普通模式
图2.8注意力计算的两种模式
(1)普通模式
普通模式又分为两步:
第一步,在所有输入信息上计算注意力分布。
= p((z = i)\x, q) = softmax(s(xi,q)) (2-5)
其中%表示输入信息,共被分为71组,俎表示一组输入信息,g是查询向 量,用于辅助选取与目标任务相关的信息。乞为注意力分布,可以视为在给定 目标任务相关的查询q时,第i个输入向量受关注的程度,s()为注意力打分函 数,其计算如公式2-6所示。
s(x, q) = vrtanh(VKx + Uq) (2-6)
其中W, U, u为可学习的参数。
第二步,根据注意力分布来计算输入信息的加权平均,其计算如公式2・7所
Zj\ O
 
 
(2)键值对模式
更一般的,可以用键值对(key・valuepair)来表示输入信息,那么就可以将 注意力机制看做是一种软寻址操作。用键值对(key・valuepair)来表示输入信息 Xo这些元素由地址键(key)和值(value)组成。在此模型中,执行一个查询,
即Key=Query,以获取存储器中相应的Value值,即Attention值。
 
其中,k为键(key),在计算时与q共同作为输入用于计算s ,矽为值(value)
用于计算聚合信息。
2.1.3可解释性方法
可解释性(Interpretability)即对模型行为的解释刖,是目前深度学习的主流 研究方向之一,被广泛认为是下一代人工智能技术的关键一环。可以预见,如果 可解释性问题取得了关键突破,将对整个深度学习的科研及应用产生全局性的影 响,大大促进人工智能在医疗、安全、国防、金融等重要领域的应用。
如图2.9所示,当前的可解释性方法可以分为两类:“事后可解释性分析(Post-
Hoc Interpretability Analysis) 和“事前可解释性建模(Ad-Hoc Interpretability
Modeling) "o
特征分析(Feature Analysis)
模型检查(Model Inspection)
廿/显著表征QczZ龙/wy丿
事后可解释性分析 V/ \
(Post-Hoc Interpretability *►代理模型呼构砂
Analysis)
先进数理(Advanced Math/Physics Method)
图2.9可解释性方法分类
 
事后可解释性分析是在模型被很好地学习之后进行的。该方法的一个主要优 点是不需要在可解释性和预测性之间做出妥协,因为预测和解释是两个独立的过 程,不会相互干扰。然而事后解释通常并不完全忠实于原始模型,即这一类解释 方法与原始模型相比存在细微的差别,从而很难对解释方法有充分的信任,因为 无法保证解释方法的正确性。如图2.9所示,“事后可解释性分析”又分成七个 子方法,表2.1详细介绍了这七个子方法。
表2.1事后可解释性分析方法
特征分析
(Feature
Analysis) 该技术的核心在于比较、分析和可视化神经网络的神经元和层级特 征。通过特征分析,可以识别敏感特征及其处理方式,从而在一定程 度上解释模型的原理。特征分析技术适用于任何神经网络,并且提供 有关网络学习了哪些特征的定性见解。然而,这些技术仍然缺乏深 入、严格和统一的理解,因此难以用于反馈提高神经网络的可解释 性。
模型检查
(Model
Inspection) 该方法使用外部算法来深入研究神经网络,通过系统提取神经网络 内部工作机制的重要结构和参数信息。与定性分析相比,该方法在技 术上更具可靠性,通过模型检查方法获得的信息更值得信赖和有用。
显著表征
(Saliency) 该方法确定输入数据的哪些属性与模型的预测或潜在表示最相关。 在此类别中,需要进行人工检查来确定显著性图是否合理。显著性图 通常是有用的,例如,如果北极熊总是与雪或冰出现在同一张图片 中,那么该模型可能会选择用雪或冰的信息来检测北极熊,而不是使 用了北极熊的真实特征。
代理模型
(Proxy) 该方法构造了一个更简单,更易解释的代理模型。理想情况下,它与 经过训练的、大型、复杂和黑盒子的深度学习模型非常相似。代理方 法可以是部分空间中的局部方法,也可以是整个空间中的全局方法。 经常使用的代理模型包括决策树,规则系统等。代理方法的缺点是构 建代理模型需要付出额外成本。
先进数理
(Advanced
Math/Physics 该方法将神经网络置于数学/物理框架中,使用数学/物理工具来了解 神经网络的机制。这一方法涵盖了深度学习的理论进展,包括非凸优 化,表达能力和泛化能力。该方法的缺点是,为了建立合理的解释,
 
 
Method) 有时会做出不切实际的假设以促进理论分析。
案例解释
(Explaining-
by-Case) 该方法与基于案例的推理相似。人们喜欢实例:一个人可能不会沉迷 于产品的统计数字,但会喜欢看其他用户使用该产品的经验。基于案 例的深度学习解释也是这样的想法。个案解释方法提供了具有代表 性的示例,这些示例捕获了模型的特质。但是,该方法更像是一种健 全性检查,而不是一般性的解释。
文本解释
(Explaining-
by-Text) 该方法在图像语言联合任务中生成文本描述,这非常有助于理解模 型的行为。该方法也可以包括生成用于解释的符号的方法。该方法在 图像文本联合任务(例如从X射线照片生成诊断报告)中较为有效。 但是,文本解释不是通用的技术,因为它只适合于模型中存在语言模 块的情况。
事前可解释性建模可以避免事后可解释性分析中的偏见。尽管通常认为在模
型可解释性和模型可表达性之间存在权衡,但仍然有可能找到功能强大且可解释 的模型。事前可解释性建模分两个子方法:可解释表示方法和模型修缮方法。表 2.2详细介绍了这两个子方法。
表2.2事前可解释性建模方法
可解释表示
(Interpretable
Representation) 该方法采用正则化技术将神经网络的训练引向更具解释性的表示。 例如通过可分解性,稀疏性和单调性等属性以增强可解释性。但是, 为了可解释性,损失函数必须包含正则项,这可能限制了原始模型执 行其完整的学习任务。
模型修缮
(Model
Renovation) 该方法通过将更多可解释的组件设计和部署来寻求可解释性。这些 组件包括专门设计的具有激活功能的神经元,具有特殊功能的插入 层,模块化的体系结构等。未来的方向是使用越来越多的可解释组件 构成网络,这些组件可以同时为各种任务提供类似的先进性能。
2.2目标检测任务
 
目标检测是一种与计算机视觉和图像处理相关的计算机技术,它处理在数字 图像或视频中检测某一类语义对象(如人、建筑物或汽车)的实例。近年来,由 于其广泛的应用和技术的突破而受到越来越多的关注。这项任务正在学术界和现
实世界的应用中进行广泛的研究,如监控安全、自动驾驶、交通监控、无人机场 景分析和机器人视觉等。本文研究的病灶检测就是目标检测技术在实际医疗领域 中的一次实际应用。
深度学习模型和GPU计算能力的进步在推动图像目标检测技术快速发展中 发挥了重要作用。现在,深度学习模型已广泛应用于计算机视觉领域,包括一般 和特定领域的目标检测。最先进的目标检测器都使用深度学习网络作为主干网络 和检测网络,从输入图像、分类和定位中提取特征。
主干网络是目标检测任务中用于提取图像特征的基本模块,以图像为输入, 输出对应图像的特征图。对于精度与效率的不同要求,人们可以选择更深层次主 干,如ResNet、ResNeXt、AmoebaNet等,也可以选择轻便的骨干,如MobileNet> ShufHeNet> SqueezeNet> Xception、MobileNetV2 等。相较于主干网络,检测网 络更加注重于算法模型对图像的前景与背景的理解,即检测网络首先需要提取图 片中的前景元素,然后过滤背景信息,最后通过矩形框标出目标元素。
在过去的研究中,人们普遍认为目标检测的进展大致经历了两个历史时期, 即“传统检测时期”和“基于深度学习的检测时期”。
2.2.1传统检测方法
传统的目标检测算法主要基于手工提取特征。检测算法流程如下:一是区域 选择,即选取感兴趣的区域(ROI);二是特征提取,即对可能包含物体的区域进 行特征提取;三是分类,即调用分类器算法对候选区域的特征进行分类。检测算 法流程如图2.10所示。
 
图2.10传统的目标检测算法流程
在深度学习引入目标检测之前,目标区域的特征提取仍然是以手工特征的方 式进行特征提取的,如VJg], HOG[33]和DPM®]方法。
2001 年,P.Viola 和 M.Jones[35]^明了一种名为 Viola-Jones (VJ)检测器” 的人脸实时检测算法,该算法能够不受任何约束(如肤色)地进行人脸检测。这 个算法运行在700MHz奔腾III CPU上,比当时任何其他算法快数十倍甚至数百 倍,同时保持相当的检测精度。VJ检测器采用了最直接的检测方式,即滑动窗 口:遍历图像中所有可能的位置和比例,以查看是否有任何窗口包含人脸。尽管 这看起来是一个非常简单的过程,但它的计算量却远远超出了当时计算机的能力。 为了显著提高检测速度,VJ检测器结合了三种重要技术:积分图像、特征选择 和检测级联。
(1) 积分图像:积分图像是一种加速框过滤或卷积过程的计算方法。与当 时的其他目标检测算法一样[殉,Haar在VJ检测器中用作图像的特征表示。积分 图像使得VJ检测器中每个窗口的计算复杂度与其窗口大小无关。
(2) 特征选择:作者没有使用一组手动选择的Haar基础过滤器,而是使用
Adaboost算法卩刀从大量随机特征池中,选择一小组对人脸检测最有帮助的特征。
(3) 检测级联:在VJ检测器中引入了多阶段检测范例,通过在背景上花费 更少的计算而在面部目标上花费更多的计算来减少其计算开销。
2005年,N.Dalal和B.Triggs提出了一种名为“定向梯度直方图(HOG)” 的特征描述方法,可以被认为是对当时的尺度不变特征变换[网和形状上下文卩刃 的重要改进。为了平衡特征不变性和非线性,HOG描述符被设计为在均匀间隔 的单元密集网格上计算,并使用重叠局部对比度归一化以提高准确性。HOG检 测器多次重新缩放输入图像以检测不同大小的物体,同时保持检测窗口的大小不 变。虽然HOG可用于检测各种对象类别,但它的主要动机是行人检测问题。多 年来,HOG检测器一直是许多物体检测器Ho】和计算机视觉应用的重要基础。
“DPM” 是指 ^Deformable Parts Model最初由 P.Felzenszwalb 在 2008 年 提出,随后R.Girshick[41][42]进行了多种改进。DPM是基于HOG检测器的扩展, 旨在解决物体检测中的复杂性问题。相比于HOG, DPM采用了更为灵活的检测 方式,即通过对物体进行部分分解并检测部分来检测整个物体。例如,对于汽车 的检测问题,DPM可以将汽车分解成车窗、车身和车轮三个部分,并对每个部 分进行检测,最终得到整个汽车的检测结果。随后,R.Girshick进一步将模型扩 展为嗨合模型珂544],以处理现实世界中变化更大的物体。DPM采用了弱监督 学习方法,通过自动学习部分滤波器的所有配置,避免了手动指定部分滤波器的 配置。此外,DPM还应用了一些其他重要技术,例如^hard negative mining
"bounding box regression"和"context priming"提高检测精度。为了加快检测速 度,DPM还使用了级联架构,并开发了一种技术将检测模型“编译”为更快的 模型[45]。
2.2.2基于深度学习方法
2012年,Alex Krizhevsky的研究卩°】使得卷积神经网络在图像识别领域重获 重视。这是因为深度卷积网络能够学习图像的鲁棒和高级特征表示。在此基础上, 一个自然的想法是将其用于目标检测。2014年,R.Girshick等人提出了一种名为 Regions with CNN features (RCNN)[46]的方法,首次成功地将卷积神经网络应用于 目标检测。从那时起,目标检测领域得以迅速发展。
R-CNN是一种基于区域的CNN检测器,可以用于目标检测任务。在目标检 测领域,R-CNN证明了深度学习方法的有效性和可行性。R-CNN检测器包含四 个模块:第一个模块是生成分类独立的区域建议,第二个模块从每个区域的建议 中提取一个固定长度的特征向量,第三个模块是一组特定类的线性支持向量机, 用于对同一幅图像中的对象进行分类,最后一个模块是一个边界框回归器,用于 精确预测边界框。R-CNN采用选择性搜索的方法生成区域建议,然后利用CNN 从每个区域的建议中提取4096维特征向量。为了使区域建议特征具有相同的大 小,R-CNN采用227X227像素的固定输入尺寸,将区域建议周围的所有像素缩 放到所需大小。特征提取网络由五个卷积层和两个完全连接层组成,所有CNN 参数在所有类别中共享。每个类别都独立于各类别的支持向量机,各支持向量机 之间不共享参数。
R-CNN是一种基于区域的CNN检测器,它比传统的检测方法在PASCAL VOC数据集上提高了目标检测性能。然而,R-CNN存在一个明显的缺点,即计 算大量重叠边界框的冗余特征会导致检测速度变慢。为了解决这个问题, R.Girshick提出了 FastRCNN,它可以同时训练检测器和边界框回归器,从而提 高了检测准确度和速度。随后,任少卿等人提出了 FasterRCNNH7],它引入了区 域生成网络(Region Proposal Network, RPN),可以几乎无成本地生成区域。Faster RCNN是第一个端到端、也是第一个实时深度学习检测器,将目标检测系统的独 立模块集成到一个统一的学习框架中。
基于深度学习的目标检测算法分为两种:两步(two・stage)检测算法和一步 (one-stage)检测算法。R-CNN系列属于两步检测算法。通常来说,两步检测算 法在准确度方面更为优秀,而一步检测算法则具有更快的速度。然而,在实际应 用中,由于计算资源的限制,通常会选择一步检测算法。因此,YOLO系列成为 了一步检测算法的典型代表。
YOLO[48]是深度学习时代的第一个一步检测算法,由RJoseph等人提出, YOLO >aaYou Only Look Once,啲缩写,从它的名字就可以看出,作者已经完全 摒弃了之前“候选+验证啪勺检测模式。相反,它遵循一种完全不同的理念:将单
个神经网络应用于完整图像。YOLO网络结构如图2.11所示:
 
Maxpool Layer Moxpool Layeri 2x2-s-2 2x2-s,2
图2.11 YOL0网络结构
从图2.11中可以看出YOLO网络共含有24个卷积层(Conv)和2个全连 接层(Corni)。其中卷积层用于提取输入图像特征的,全连接层用于预测目标位 置和类别。在检测中,该网络将图像划分为多个区域,预测出每个区域的边界框 和概率,这些边界框根据预测的概率进行加权得到预测结果。最后调整检测阈值, 以过滤置信度较低的结果。检测过程如图2.12所示。
 
 
心落在一个网格单元中,则该网格单元负责检测该物体。在划分的sxs个网格 中,每个格子都会输出t个bounding box (图2・12中黑色矩形框)和i个目标 类别(图2・2中彩色区域)的概率。每个bounding box含有五个参数分别为x、 y、w、h 和 confidence,其中,(x,y)为 bounding box 的中心点坐标;(w,h) 是bounding box的宽和高;confidence为置信度,指bounding box中是否包含目 标的准确度,置信度的计算如公式(2・9)所示。
confidence = Pr(Object) x (2-9)
其中对于Pr(Object),如果该单元格中存在对象则为1,不存在则为0。于 是置信度分数等于预测框和真实标签之间的交并比(IOU),且最终归一化到 [0,1]之间。
通过以上描述,YOLO模型将检测问题建模为回归问题,它将图像划分为 sxs网格,并为每个网格单元预测B个边界框及其置信度和C个类别的概率。 这些预测数据被编码为sxsx(Bx5 + C)大小的张量,作为YOLO模型的最 终预测结果。
2.2.3目标检测评判标准
目标检测是对自然图像中的目标进行类别和位置的预测,判断一个目标检测
 
算法的性能,通常由以下几个指标决定:
(1)AP:平均精度,是指PR曲线与坐标轴围成的面积;
(2) mAP:各个类别AP的平均值,代表了在当前多个类别下能达到的平均精
度;
(3) Acc:准确度(Accuracy),是指所有预测中预测正确的比例。
其中mAP是由所有类别的AP值通过平均计算得到的,而AP则需要通过 计算模型的PR曲线得出。PR曲线又称为Precision-Recall曲线,是以精确率
(Precision)为y轴和召回率(Recall)为x轴绘制得出,而精确率和召回率又 与混淆矩阵相关,表2・3为混淆矩阵。
 
其中,P为正样本(Positive), N为负样本(Negative)□在上述混淆矩阵中, 对预测结果分为以下四种情况:
(1) TP (TruePositive)指预测为正样本,实际也为正样本的数量(正确辨
别为正样本数量);
(2) TN (TrueNegative):预测为负样本,实际上是负样本的数量(正确辨
别为负样本数量);
(3) FP (FalsePositive):预测为正样本,实际上是负样本的数量(错误辨
别为正样本的数量);
(4) FN (FalseNegative):预测为负样本,实际上是正样本的数量(错误辨 别为负样本的数量)。
根据以上定义,精确率、召回率和准确度的公式可以定义为:
TP
Precision =————
TP + FP
TP
Recal1 =丽T顾
 
 
因此,精确率是模型识别相关目标的能力,而召回率是模型找到所有相关目 标(所有真实边界框)的能力。在实际预测中,模型根据预测得出对应的混淆矩 阵,计算出Precision和Recall,然后绘制PR曲线,计算得出各类别的AP值。
2.3本章小结
本章主要介绍了病灶检测相关的技术。在深度学习相关算法中,介绍了卷积 神经网络的结构和激活函数,注意力机制及其两种计算模式,可解释性的两类共 11种方法。在目标检测任务中,介绍了传统的检测方法并对其中具有代表性的 方法进行阐述。然后介绍了当前基于深度学习的目标检测中两类主要方法,并对 两类方法的主要思想和网络结构进行讲解。最后详细介绍了目标检测的评判标准。
第三章 使用空间注意力叠加和多层特征融合改进病灶检测
3.1SAS-MFF-YOL0病灶检测模型
在计算机视觉中,注意力机制被广泛采用,使深度学习模型专注于输入图像 中对特定任务(例如,分类或对象检测)有价值的重要部分。它可以将复杂的任 务简化为更易于管理的关注领域,以便按顺序理解和处理。
在典型的基于深度学习的医学影像诊断模型中,决策是基于特征图(在神经 网络层中也称为通道)生成的,这些特征图是通过应用过滤器(filters)或特征检 测器(featuredetectors),从输入的医学影像或先前层的输出生成的。特征图捕获 医学影像中不同类型的特征。分类器的性能在很大程度上取决于特征映射是否可 以捕获分类任务的有用特征。因此,为了诊断疾病,应利用的特征是病变及其在 医学影像中的位置。
为使模型更好地捕获有用特征从而诊断疾病。首先本文设计了一个空间注意 力叠加(Spatial Attention Superposition, SAS)模块,该模块利用通道注意力円刃卩。] 和空间注意力eld]的思想来揭示感兴趣的区域(即病变的表现)及其在原始图像 中的位置。此外,本文还开发了多层特征融合(Multilayer Feature Fusion, MFF) 模块以保留SAS产生的重要特征,并确保模型不会被不重要的特征分散注意力。 这两个模块共同作用,以确保模型提取和聚焦病灶检测的有用特征,从而提高病 灶检测器的性能。
3.1.1空间注意力叠加模块
空间注意力叠加(SAS)模块考虑了对病灶检测很重要的图像特征的通道 特征和空间特征。图3.1展示了 SAS模块的整体结构。
给定输入图像或特征图勺,首先计算整个通道的空间注意力。注意力得分 ©是通过平均和最大化通道维度并通过CBL层(由卷积块、批量归一化和ReLU 组成)和Sigmoid函数来计算的,以帮助生成以下两个注意力值。其计算公式如 3-1所示。
at = Sigmoid^CB 厶([mean(x)max(尤 J])) (3-1)
其中i表示位置索引,石表示位置i处所有通道的向量值,mean^Xt)表示平均
值,max^Xi)表示取大值,[]表示串联操作。
 
 
Element-wise Multiplication
同时,将输入特征竝分为两部分,百1和百2,进一步计算两种注意力值:一种 关注通道特征,另一种专注于目标识别。第一部分石1通过一个CBL层统一整体 通道维度,通过空间注意力计算模块获得注意力值©'。另一部分兀辽通过有利于 目标识别的编码■解码层,旨在改善特征的感受野和语义。然后,计算具有广泛感 受野和丰富语义的特征的空间注意力卬〃。
最后,基于初始注意力印导出的两个部分店和©〃的注意力值分别与原始特 征图相乘并融合。利用通道注意力和空间注意力的优势,SAS模块的输出特征图 有望包含并突出显示病灶检测感兴趣的区域(即病变及其位置,如果存在)。
3.1.2多层特征融合模块
本文的SAS模块可以识别在检测病灶时需要关注的不同通道或特征图中的 特征。由于不同通道的特异性,这些特征通常描述原始图像的不同特征。有些特 征对疾病诊断很重要,但有些是不重要的。在最佳情况下,在学习阶段,模型将 只关注重要特征(例如利用与疾病诊断相关的特征)而忽略那些不重要的特征(例 如削弱不重要的特征),以便模型能够准确并保持其鲁棒性。然而,传统的特征 融合方法通常将重要特征与次要特征混合在一起,这会影响模型的性能。本文设 计了一个MFF模型来合并分类信息。在进行特征融合时,MFF模块能够区分重 要信息,并削弱不重要的特征。通过这种方式,模型不需要调整自己以适应那些 琐碎的特性,而是专注于重要的特性。
MFF模块结构如图3.2所示。其输入是SAS模块产生的特征图。首先使用 一维卷积实现局部跨通道交互策略[呵,这是一种可降低复杂性且无需降维的方 法。具体来说,首先对输入进行了全局平均池化(Global Average Pooling, GAP), 生成了一个大小为lxlxC的卷积层,其中C是通道维度的大小。然后,通过 一维卷积来获得每个通道的权重少。权重的计算公式可以表示为公式3・2。
3 = Sigmoid (ciD/GAPQr))) (3-2)
其中GAPM表示全局平均池化,ClDk指的是核大小为k的一维卷积,并且 核大小k与通道维度C成非线性比例.
 
 
与正常的特征融合不同,根据注意力值(即重要性和对最终分类决策的贡献) 排序后,将〜结果通道或特征图按入的比例分为两部分:前入c个通道被选为积极 通道% ,其余通道为消极通道yn.
因此,具有区分度和存在明显特征(即在疾病诊断中发挥更重要作用)的通 道成为积极通道,而具有微小隐藏信息的通道成为消极通道。对于消极通道,本 文计算了平均值%^来代替原来的%。最后,将通道连接在一起形成一个新的特 征图,然后将其转发给分类器或对象检测器。在这种情况下,采用廉价手段在不 丢失内在特征的情况下补充微小的隐藏细节,以便MFF模块可以总结病灶检测 的重要信息并提高模型的鲁棒性。
3.1.3模型整体结构
为了进行疾病诊断,本文将提出的两个模块嵌入到基线神经网络YOLOv5 中,并开发了一个名为SAS-MFF-YOLO的模型。它主要由三部分组成:一个从 输入图像中提取初始特征的主干(backbone)层;一个生成特征金字塔的颈部 (neck)层,以便识别不同尺度的重要特征;以及一个用于分类和目标检测的预 测(prediction)层。其中,以焦点作为网络的起点,在CSPNet的基础上构建了 CSP1和CSP2,并采用了 SPP来扩展特征层的感受野。本文提出的SAS和MFF 模块分别作为颈部的特征提取和特征融合模块。总的想法是SAS突出了病变的 内在和鉴别信息,而MFF合并了不同通道处理不同的增强和互补特征。图3.3展
 
的SAS和MFF模块。
 
3.2实验、结果与分析
3.2.1数据集
肺炎是肺部的代表性疾病,在本章中,采用两个肺炎数据集进行实验,以验 证该方法的有效性。一个由北美放射学会(Radiological Society of North America, RSNA)提供网,包含30028张影像图片作为训练数据和3000张作为测试数据。 数据集中有三类:正常(Normal)、肺不透明(LungOpacity)和无肺不透明/不正 常(No Lung Opacity/NotNormal)。没有任何肺炎证据的图像被认为是“正常” 的。“肺不透明”表示发现肺炎相关病变。如果影像图片不包含肺炎相关病变但 有其他异常,则将其标记为“无肺部混浊/不正常”。这三类的分布如表3.1所示。 除标签外,数据集还提供了指定病变的边界框(包括左上角的坐标、框的宽度和 高度),可用作肺炎检测的事实依据。
表3.1 RSNA提供的数据集类别分布
类别 是否患肺炎 Images
正常 8851
肺不透明 9555
无肺不透明/不正常 11821
本文中使用的另一个数据集由“AI研习社”阿提供,由20013张训练图像 和6671张测试图像组成。
3.2.2实验参数设置
本文使用PyTorch框架开发了 SAS-MFF-YOLO模型,为使训练过程合理 高效、达到最优状态,结合实验,手动调整参数。本文采用了随机梯度下降
(Stochastic Gradient Descent, SGD)优化器,学习率为 0.1,权重衰减为 5 X 10~40 总分类损失、目标损失和锚框回归损失三项联合作为总损失。对于MFF模块, 入(参见3.1.2)设置为1/2。批大小设置为128。
实验评估了模型在肺炎诊断的两个常见任务中的性能一一分类(即肺炎诊断) 和对象检测(即标记病变的边界框)。首先进行了消融实验以验证本文提出的 SAS和MFF模块的有效性。具体来说,对基线模型YOLOv5与SAS-YOLO. MFF-YOLO和SAS-MFF-YOLO三个嵌入式模型进行了比较。为了进一步验证 该方法的有效性,将SAS-MFF-YOLO与通常用于目标检测任务的模型进行了比 较,包括 YOLOv3、YOLOv5 和 RetinaNet。
对于肺炎分类,实验采用两种常用的评估指标一一精确率和召回率来评估不 同的模型。具体采用4^0和mAP。前者表示当阈值T设置为0.5时的AP值, 而后者是计算4P的平均结果,阈值卩在0.50〜0.95范围内变化,步长为0.05o 3.2.3实验结果
(1)消融实验
本文利用RSNA和AI研习社提供的数据集进行消融实验,以验证SAS和 MFF模块的有效性。两个数据集的实验结果如表3.2和表3.3所示。
表3.2不同模型在RSNA提供的数据集上的表现
Model Precision(%) Recall(%) 处50(%)
YOLOv5 13.8 55.7 27.8 8.2
SAS-YOLO 14.0 55.8 2&9 8.3
MFF-YOLO 14.1 57.1 27.7 8.4
SAS-MFF-YOLO 18.3 5&9 31.0 9.7
 
 
表3.3不同模型在AI研习社提供的数据集上的表现
Model Precision(%) Recall(%) 仲50(%) mXP(%)
YOLOv5 77.6 9&5 97.6 61.2
SAS-YOLO 81.9 9&6 9&2 61.6
MFF-YOLO 86.0 99.3 82.5 57.1
SAS-MFF-YOLO 88.1 9&2 99.0 67.9
实验结果表明,将SAS与MFF结合使用大大提高了肺炎分类和病变检测的 性能。对于来自RSNA的数据集,SAS-MFF-YOLO模型实现了 1&3%的精确率 和58.9%的召回率,31.0%的AP_50和9.7%的mAP,在精确率、召回率、AP 50 和mAP方面分别将基线模型提高了 4.5%、3.2%、3.2%和1.5%。对于来自AI研 习社的数据集,SAS-MFF-YOLO模型实现了 8&1%的精确率,98.2%的召回率, 99.0%的AP 50和67.9%的mAP,同样表现出了明显的提升。
这些结果证明,利用注意力叠加机制(即通道和空间注意力)和利用多层特 征可以促进肺炎的检测。嵌入SAS模块后,模型的性能得到了增强,尤其是仲50。 这主要是因为SAS模块可以突出肺炎识别的重要特征(即肺炎相关病变)以刺 激对象检测。还可以观察到MFF模块在提高召回率方面发挥了重要作用。由于 保持并集中了通道中的重要特征,而在MFF中中和了具有冗余的消极通道,因 此模型在执行分类/对象检测时很少考虑不重要的特征(即不重要的特征几乎不 影响模型的判断),提高了模型的鲁棒性。因此,SAS和MFF模块都在提升性能 方面发挥了重要作用。
(2)与其他目标检测模型的比较
本文还将SAS-MFF-YOLO模型与其他最先进的目标检测模型进行了比较,
以进一步验证本文方法的有效性。实验结果见表3.4。可以发现,本文提出的模 型在病变对象检测任务中取得了最佳性能。
表3.4不同模型在RSNA和AI研习社提供的数据集上检测肺炎相关病变的性能。评价
指标是4^50。
Dataset YOLOv3(%) YOLOv5(%) RetinaNet(%) SAS-MFF-
YOLO (%)
RSNA 24.3 27.8 25.5 31.0
AI研习社 86.8 97.6 8&2 99.0
图3.4中显示了几个病变标记的图像。实际病变区域由红色边框标记,模型 预测结果由蓝色边框标记。预测边框上方的数字是反映模型对其判断的信心程度 的(即置信度分数)。可以看出,本文提出的模型可以有效地从医学影像中识别
 
(a) left lower (b) right (c) right middle (d) both side
图3.4四例肺炎病灶检测。红色边框为实际病变区域,蓝色边框为模型预测结果。
3.2.4分析讨论
比较不同模型的性能表明,SAS和MFF模块可以识别并专注于医学影像中 的重要内在特征以促进疾病诊断。为了进一步说明该方法的优势,本文将中间特 征图可视化。可视化可以深入了解模型所依赖特征的内部表示。
(1)中间特征图可视化
可视化结果如图3.5所示。特征图由SAS-MFF-YOLO模型生成。热图展示 了该图像的特征图,其中浅色(如黄色)表示肺炎病灶检测的潜在重要区域。通 过观察中间特征图,可以发现,模型最初提取了肺部的整体特征(如纹理、轮廓)。 随着层数的深入,模型提取了与肺炎诊断相关的特征并突出显示了它们的位置, 这表明模型的关注点发生变化。
 
 
图3.5 SAS-MFF-YOLO模型生成的中间特征图可视化。(a, b)显示原始医学影像和病灶
检测结果。热图展示了该图像的特征图,其中黄色表示病灶检测的潜在重要区域。
 
(2)特征图分析
比较基线模型YOLOv5和SAS-MFF-YOLO模型诊断过程的特征图,可以
 
图3.6特征图可视化示例。(a,b)分别是YOLOv5和SAS・MFF・YOLO得到的病变检测
结果。蓝色边框为实际病变区域,红色和绿色边框分别由以上两个模型标记,热图展
示了该图像的特征图。
图3.6显示了由YOLOv5和SAS-MFF-YOLO生成的几个选定的医学影像特 征图。从特征图中可以看出,尽管两个模型的特征图显示出类似的样式,但SAS・ MFF-YOLO揭示的肺炎病灶在病变区域及其位置方面更为准确。此外,可以发 现SAS-MFF-YOLO生成的特征图更多地集中在病变区域(即不重要的信息被淡 化);而YOLOv5的特征图描绘了更多的特征,但有些特征显然与肺炎诊断无关。 因此,YOLOv5很可能会被那些琐碎的特征分散注意力。结果,本文的SAS-MFF- YOLO模型以相对较高的置信度正确地发现了病灶,但是YOLOv5以较低的置
信度分数对病变进行了错误检测,这表明其对决策的不确定性。
 
 
 
10 lay 12 lay 14 lay 16 lay 18 lay 19 lay 21 lay 22 lay
 
图3.7特征图可视化的另一个例子。(a, b)分别是YOLOv5和SAS-MFF-YOLO产生的
病灶检测结果。蓝色边框为实际病变区域,红色和绿色边框分别由以上两个模型标
记,热图展示了该图像的特征图。
另一个例子如图3.7所示。在这种情况下,即使YOLOv5像SAS-MFF-YOLO 一样正确地检测到病灶,但由于重要信息和琐碎信息在决策中受到同等重视,因 此其置信度得分要低得多。这些比较结果证明SAS-MFF-YOLO模型在疾病的诊 断方面能够获得更好的性能,再次验证了本文提出的SAS和MFF模块的有效 性。
(3)与相关工作比较
之前的大部分研究都使用人工智能和深度学习技术来检测是否存在肺炎或 其他疾病[56][57]o然而,很少有研究使用卷积神经网络根据病灶的特征对疾病进行 分类和定位。
Rajpurkar等人提出的CheXNet[13]o只能预测疾病概率。本文的模型利用通 道注意力和空间注意力的优势,识别病灶内在影像特征及其位置预测疾病的概率。
尽管大多数研究人员[8][14][15]使用精度更高的两阶段目标检测器,但本文的 SAS-MFF-YOLO模型在同一数据集上的效率和精度方面取得了更好的性能。这 源于本文提出的MFF模块能够协调来自不同通道的不同特征并强调重要信息, 这可以减少计算量并提高准确性。
之前的研究[14][16][17]专注于使用迁移学习和预训练模型。然而,医学影像的 病灶检测不同于传统的目标检测,需要有针对性的改进。本文修改了现有模型来 检测病灶。具体来说,本文提出了 SAS・MFF・YOLO模型,它可以很容易地嵌入 到现有的基线分类神经网络中,以增强其在病灶检测中的性能。
3.3本章小结
在本章中,提出了一种名为SAS-MFF-YOLO的深度神经网络,具有空间注 意力叠加(SAS)和多层特征融合(MFF),以促进基于医学影像的病灶检测。利 用注意力叠加机制和新的特征融合策略,SAS-MFF-YOLO能够提取和聚焦对疾 病诊断有用的特征。在RSNA和AI研习社的数据集上进行的实验证明,本章提 出的方法可以提高模型在疾病分类和病变检测方面的性能。比较SAS-MFF- YOLO 和基线模型生成的特征图进一步说明了 SAS和MFF模块的优势。
 
 
第四章引入可解释性模型提升病灶检测效果
在病灶检测领域,可解释性和准确性一样都是非常重要的,因为医疗决策不 仅需要基于可靠的数据,而且需要推理过程的可解释。在SAS-MFF-YOLO病灶 检测模型中,虽已取得了较高的性能,但模型较复杂,透明度较低,使得模型不 易被人们理解。尤其是在医疗检测领域,医生无法判断黑箱模型给出的最终结果 的可信度和合理性。同时,在系统发生错误时,研究人员无法找到其错误原因。
为解决以上问题,本章引入具有可解释性的SProtoPNet检测模型,通过模 型修缮的办法,使得模型的推理过程和输出结果更加易于理解和解释,提高了模 型的可解释性和可信性。
4.1SProtoPNet 模型
SProtoPNet以人的判断逻辑进行图像分类。在人类进行物体的分类时,通常 是关注物体的几个部分,并与该物体的典型部分(即原型)进行对比得出判断。 SProtoPNet模仿这一过程,从推理可解释性的角度处理图像。其网络结构如图4.1 所示。
 
图4.1 SProtoPNet的整体结构
该模型由三部分组成:卷积层(Convolutional layers)>原型层(Prototype layer) 和分类层(Classification layer)□原始图像输入网络后经卷积层特征提取,然后进 入原型层,与提前训练好的原型比较,计算相似度分数,从而预测疾病。
4.1.1卷积层
卷积层是检测网络中最重要的组成部分之一,其主要任务是负责图像特征的
提取。通过卷积操作,卷积层可以提取输入图像中的局部特征,从而形成更高层 次的抽象特征。这些特征提取的结果将直接影响检测网络的性能,因此,卷积层 的设计和参数设置对于提高检测网络的准确性和效率至关重要。
本节本文采用SAS-MFF结构作为SProtoPNet的卷积层,负责特征提取的任
 
其中,Focus模块是输入图像在进行特征提取前的切片操作,目的是集中通 道信息,缩小输入图像的尺寸。具体而言,是将图片分为四个区域,提取每个区 域的所有通道重组为新的特征图。Focus模块的结构图如图4.3(a)所示,图4.3(b) 为切片操作。
 
(a) (b)
图4.3 Focus模块:(a)结构图;(b)切片操作。
给定输入图像x (例如图4.2中的胸部X光片),经多个SAS-MFF模块提取 特征后得到卷积输出结果f(x)。设HXWXD为卷积输出的形状,对于输入图 像大小调整为640 X 640 X 3的医学影像数据集,卷积输出的空间维度为20 X 20 x 128.
4.1.2原型层
在原型层中,网络学习th个原型P = {pi}^L1,其形状为H1XU4XD,其 中H±<H且必S W。在实验中,本文使用H± = W± = 2 o由于每个原型的深
度与卷积输出相同(都为D),但每个原型的高度和宽度均小于卷积输出,因此每 个原型可用于表示卷积输出z = /(%)中九的一些典型激活模式,同时这又对应 于原始图象中的一些典型部分。因此,每个原型"可以被理解为医学影像的某 个典型部分(即病灶,如果存在)的潜在表示。
将卷积输出的九与原型"进行对比,对比结果记为相似度分数s,即$与 Pi的相似程度。
具体而言,原型层外中的第i个原型单元外厂计算第i个原型“和尢的距 离,如公式4・1所示
 
 
 
其中,Z为与“匹配度最高的齐。其结果是相似度分数的激活图,表示图 像中原型部分的强度。由于函数gPi相对于\\z-Pi\\l单调递减(如果z存在)。
因此,如果第i个原型单元的输出很大,那么在卷积输出中一定存在一个尢 与"非常接近,这也意味着输入图像中有一部分与第i个原型所代表的部分相似。 殂保留了卷积输出的空间关系,并且可以上采样到输入图像的大小以生成热图, 该热图可以识别输入图像的哪一部分与学习的原型最相似。
然后使用全局最大池化(Global Max Pooling)将每个原型单元gp.生成的 相似度分数的激活图缩减为单个相似度分数,这可以理解为原型部分在输入图像 的某个补丁中的存在程度,其计算如公式4・2所示。
= GMP(gp) (4-2)
其中,GMP即为全局平均池化。
4.1.3分类层
最后,原型层外产生的m个相似度分数乘以全连接层中的权重矩阵,并使
用Softmax对其进行归一化预测概率。其计算如公式4-3所示。
 
其中a)h表示pt的权重,即每个原型对诊断的重要性。通过这个过程,
SProtoPNet可以根据输入图像与对应原型之间的相似性来诊断疾病。
4.2实验、结果与分析
4.2.1数据集
本文在Chest X-rayl4数据集上进行了实验,该数据集是目前最大的开源胸 片数据集。包含来自30805个患者的112120个正面扫描X光片。数据集含 有14类常见的胸部病理,包括肺不张(Atelectasis)、变实(Consolidation)、 浸润(Infiltration)、气胸(Pneumothorax)、水肿(Edema)、肺气肿
(Emphysema纤维变性(Fibrosis)、积液(Effusion)> 肺炎(Pneumonia)> 胸膜增厚(Pleural Thickening)、心脏肥大(Cardiomegaly)> 结节(Nodule)、 肿块(Mass)和疝气(Hernia)o
4.2.2实验参数设置
本文使用PyTorch框架开发了 SProtoPNet模型。为了训练模型,本文采用 了随机梯度下降优化器优化卷积层的参数如。"和原型层的原型P = {"}世1,同 时保持最后一层权重矩阵少乙固定。
损失函数分为分类损失函数和原型损失函数,在分类损失函数中,采用卷积 模块损失、原型模块损失和全连接网络损失三项联合作为总损失。在原型损失函 数中,采用交叉爛损失、聚类损失和分离损失三项联合作为总损失。交叉嫡损失 用于削减训练数据上的错误分类,聚类损失用于寻找特征图像中与之相似的原型, 分离损失用于鼓励特征图像远离与之不同的原型。
4.2.3结果与分析
(1)原型可视化
在模型训练中,使用距离训练图像最近的特征向量作为原型。可视化结果如 图4.4所示。
 
 
 
 
 
由图4.4可以看出,经可视化的原型表现为医学影像中的模糊区域。这是 因为,原型(在4丄2中已经定义)为其中某个典型部分(即病灶)的潜在表
Zj\ O
(2)网络推理过程
图4.5展示了本文提出的SProtoPNet在图对左侧的原始图像判断时的推理 过程。给定原始图像x,模型将其潜在特征与学习的原型进行比较,得出分 类结果。
 
 
『[7
 
图4.5 SProtoPNet在判断病灶时的推理过程
在图4.5中,SProtoPNet通过将图像的特征图与某一原型进行比较,来寻找 病变的证据。这种比较会生成该原型的相似度分数激活图,该图被上采样并叠加 在原始图像上,以查看给定图像的哪一部分被原型激活。图4.5的“激活图”显 示,原型在原始图像的右肺中叶附近被强烈地激活,并将这一区域在“原始图像” 上用边界框标记(见图4.5原始图像中黄色矩形框),这是网络认为与对应原型 相似的区域。通过这一过程,网络得出两个原始图像对应区域患有肺炎和心脏肥 大的结论。
(3)与其他可解释的目标检测模型比较
为证明SProtoPNet的性能,本文在Chest X-ray 14数据集上进行了对比实验, 评价指标是Acco实验结果如表4.1所示。可以发现,本文提出的可解释模型在 病变对象检测任务中取得了最佳性能。
表4.1不同模型在Chest X-rayl4数据集上检测病灶的平均性能。
Dataset ProtoPNet (%) CheXNet (%) SProtoPNet (%)
ChestX-ray 14 83.8 80.3 87.6
从表中看出,采用SAS-MFF结构的SProtoPNet在性能上有了较大提升,实 现了 87.6%的准确度,将基线模型提高了 3.8%O SProtoPNet的模型可解释性相较 于SAS-MFF-YOLO大大增强,模型的可信性与透明度大大提高。可以看出,本 文提出的模型可以有效地从医学影像中识别病灶并提供可解释的推理过程。
4.3本章小结
本章针对病灶检测任务中,检测模型复杂、透明度低的情况,提出了 SProtoPNet。该网络模拟人的思维方式,通过对比输入图像与原型的相似性得出 分类结果。在该模型中,输入图片通过卷积层提取特征,然后与提前训练好的原 型进行对比,得出相似度分数,再将相似度分数转化为预测概率,得出分类结果。 这种推理方式类似于医生解决图像分类任务时的思维方式。大大增强了网络的可 解释性,使模型的可信性与透明度大大提高。最后本章在实验部分展示了网络的 推理过程,同时,将本章提出的模型与可解释的检测模型进行了比较,结果进一 步说明了 SProtoPNet在具有较强可解释性的情况下,仍能保持较高的准确度。
第五章总结与展望
5.1研究总结
人工智能技术在医疗领域的应用,能够提高医生的工作效率,缓解医院的压 力。本文主要针对病灶检测问题进行了探讨和研究,分析了当前病灶检测的研究 背景和意义,梳理了病灶检测及相关工作的研究现状,指出了当前研究存在的不 足。即生成能够体现病变及其位置的特征图仍然具有挑战性,同时也存在模型可 解释性不强,结果可信度不高等问题。在这项研究中,本文旨在开发一种有效的 方法来促进疾病的诊断,以提高模型的可解释性与检测性能。
本文的主要工作可以总结如下:
(1)本文设计了一个利用通道和空间注意机制的空间注意力叠加模块用于 识别病灶的内在成像特征,并且设计了多层特征融合模块用于协调来自不同通道 的不同特征并强调重要信息。将这两个模块连接起来以提取关键图像特征,作为 疾病诊断的基础。
(2)本文将所提出的模块嵌入基线神经网络,并开发了一种名为SAS-MFF- YOLO的模型来检测病灶。为了验证模型的有效性,对北美放射学会(RSNA) 和AI研习社提供的两个数据集进行了大量实验。SAS-MFF-YLO在AI研习社数 据集上实现了 88.1%的精确率和98.2%召回率,AP50为99%。中间特征图的可视 化表明,该方法可以促进发现医学影像中的相关病变。
(3)为证明模块的鲁棒性,同时为提高模型的可解释性,本文设计了 SProtoPNet检测病灶,该模型模拟人的分类逻辑进行图像推理,具有较强的可解 释性。为验证模型的有效性,在Chest X-rayl4数据集上进行了实验。研究结果 表明,该方法可用于提高医学影像病灶检测的性能,并提高模型的可解释性。
5.2研究展望
人工智能诊断具有效率高、成本低的优点。人工智能病灶检测可以提高医生 的工作效率,缓解医院的压力。同时,偏远地区经验丰富的医生和高端医疗硬件 设备相对较少。人工智能病灶检测的应用,可以缓解医务人员仅依靠自身临床经 验诊断患者疾病的现状,有助于解决医疗资源分布不均的问题。
在人工智能技术飞速发展的今天,尽管基于深度学习的诊断方法已经取得了 专家般的表现,但它们通常不受医生信任。主要原因是神经网络做出决策的可解 释性低。对于大多数智能诊断系统,要么不提供对决策的解释,要么提供的解释 (如本文中采用的热图显示了作为决策基础的特征图)并不直接和清晰以便医生 们理解。
在未来,我们计划探索将特征图中突出显示的区域(即病变)与其实际意义 (例如,放射科医生使用的临床术语)相关联的深度学习方法。这样,医生就可 以很容易地理解为什么要做出某个决定,这将大大提高基于深度学习的诊断方法 的可解释性和可靠性。
参考文献
[1]Ni, J., and P. J. Wang. nPresent and future: artificial intelligence in medical imaging.n Zhonghua yi xue za zhi 101.7 (2021): 455-457.
[2]Olveres, Jimena, et al. nWhat is new in computer vision and artificial intelligence in medical image analysis applications.n Quantitative imaging in medicine and surgery 11.8 (2021): 3830.
[3]Qin, Chunli, et al. nComputer-aided detection in chest radiography based on artificial intelligence: a survey.n Biomedical engineering online 17.1 (2018): 1-23.
[4]Ozturk, Tulin, et al. "Automated detection of COVID-19 cases using deep neural networks with X-ray images.n Computers in biology and medicine 121 (2020): 103792.
[5]Yee, Sara Lee Kit, and Wong Jee Keen Raymond. nPneumonia diagnosis using chest X-ray images and machine learning.n proceedings of the 2020 10th international conference on biomedical engineering and technology. 2020.
[6]Sousa, Rafael T., et al. "Comparative performance analysis of machine learning classifiers in detection of childhood pneumonia using chest radiographs.n Procedia Computer Science 18 (2013):2579-2582.
[7]Imran, Bahtiar, Hambali Hambali, and Lalu Darmawan Bakti. nImplementation of Machine Learning Model for Pneumonia Classification Based on X-Ray Images.n Jurnal Mantik 5.3 (2021):2101-2107.
[8]Gabruseva, Tatiana, Dmytro Poplavskiy, and Alexandr Kalinin. nDeep learning for automatic pneumonia detection.n Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops. 2020.
[9]Toga^ar, Mesut, et al. nA deep feature learning model for pneumonia detection applying a combination of mRMR feature selection and machine learning models.n Irbm41.4 (2020): 212- 222.
[10]Sourab, Sazzad Yousuf and Md Ahasan Kabir. nA comparison of hybrid deep learning models for pneumonia diagnosis from chest radiograms.n Sensors International 3 (2022): 100167.
[11]Sun, Liping, et al. nCombination of four clinical indicators predicts the severe/critical symptom of patients infected COVID-19.” Journal of Clinical Virology 128 (2020): 104431.
[12]Franquet, Tomas. nImaging of community-acquired pneumonia.n Journal of thoracic imaging 33.5 (2018):282-294.
[13]Rajpurkar, Pranav, et al. HChexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning.n arXiv preprint arXiv: 1711.05225 (2017).
[14]Sirazitdinov, Ilyas, et al. "Deep neural network ensemble for pneumonia localization from a large-scale chest x-ray database.H Computers & electrical engineering 78 (2019): 388-399.
[15]Jaiswal, Amit Kumar, et al. nIdentifying pneumonia in chest X-rays: A deep learning approach.n Measurement 145 (2019): 511-518.
[16]Yao, Li, et al. "Learning to diagnose from scratch by exploiting dependencies among labels.H arXiv preprint arXiv: 1710.10501 (2017).
[17]Wang, Xiaosong, et al. "Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases.H Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[18]Xu, Kelvin, et al. ”Show, attend and tell: Neural image caption generation with visual attention.n International conference on machine learning. PMLR, 2015.
[19]Mnih, Volodymyr, Nicolas Heess, and Alex Graves. nRecurrent models of visual attention.n Advances in neural information processing systems 27 (2014).
[20]Fu, Jun, et al. "Dual attention network for scene segmentation.n Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[21]Chu, Lingyang, et al. "Exact and consistent interpretation for piecewise linear neural networks: A closed form solution.n Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
[22]Fan, Fenglei, et al. "Soft autoencoder and its wavelet adaptation interpretation.H IEEE Transactions on Computational Imaging 6 (2020): 1245-1257.
[23]Erhan, Dumitru, et al. "Visualizing higher-layer features of a deep network." University of Montreal 1341.3 (2009): 1.
[24]Zeiler, Matthew D., and Rob Fergus. nVisualizing and understanding convolutional networks.n Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6- 12, 2014, Proceedings, Part 113. Springer International Publishing, 2014.
[25]Jiang, Hongyang, et al. nA multi-label deep learning model with interpretable grad-CAM for diabetic retinopathy classification.n 2020 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). IEEE, 2020.
[26]Cai, Carrie J., et al. "n Hello AT: uncovering the onboarding needs of medical practitioners for human-AI collaborative decision-making.n Proceedings of the ACM on Human-computer Interaction 3.CSCW (2019): 1-24.
[27]Draelos, Rachel Lea, and Lawrence Carin. ''Hirescam: Faithful location representation in visual attention for explainable 3d medical image classification.n arXiv preprint arXiv:2011.08891 (2020).
[28]Bau, David, et al. nNetwork dissection: Quantifying interpretability of deep visual representations.n Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[29]Zhang, Quanshi, Ying Nian Wu, and Song-Chun Zhu. 'Interpretable convolutional neural networks.n Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[30]Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. nImagenet classification with deep convolutional neural networks.n Communications of the ACM 60.6 (2017): 84-90.
[31]Fan, Feng-Lei, et al. nOn interpretability of artificial neural networks: A survey.H IEEE Transactions on Radiation and Plasma Medical Sciences 5.6 (2021): 741-760.
[32]Viola, Paul, and Michael Jones. nRapid object detection using a boosted cascade of simple features.n Proceedings of the 2001 IEEE computer society conference on computer vision and pattern recognition. CVPR 2001. Vol. 1. Ieee, 2001.
[33]Dalal, Navneet, and Bill Triggs. "Histograms of oriented gradients for human detection.n 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR*05). Vol. 1. Ieee, 2005.
[34]Felzenszwalb, Pedro, David McAllester, and Deva Ramanan. nA discriminatively trained, multiscale, deformable part model.H 2008 IEEE conference on computer vision and pattern recognition. Ieee, 2008.
[35]Viola, Paul, and Michael J. Jones. nRobust real-time face detection.n International journal of computer vision 57 (2004): 137-154.
[36]Papageorgiou, Constantine P., Michael Oren, and Tomaso Poggio. nA general framework for object detection.n Sixth International Conference on Computer Vision (IEEE Cat. No. 98CH36271). IEEE, 1998.
[37]Freund, Yoav, Robert Schapire, and Naoki Abe. nA short introduction to boosting.n Journal- Japanese Society For Artificial Intelligence 14.771-780 (1999): 1612.
[38]Lowe, David G. "Object recognition from local scale-invariant features.'* Proceedings of the seventh IEEE international conference on computer vision. Vol. 2. Ieee, 1999.
[39]Belongie, Serge, Jitendra Malik, and Jan Puzicha. nShape matching and object recognition using shape contexts.n IEEE transactions on pattern analysis and machine intelligence 24.4 (2002): 509-522.
[40]Malisiewicz, Tomasz, Abhinav Gupta, and Alexei A. Efros. ''Ensemble of exemplar-svms for object detection and beyond.n 2011 International conference on computer vision. IEEE, 2011.
[41]Felzenszwalb, Pedro F., Ross B. Girshick, and David McAllester. nCascade object detection with deformable part models.n 2010 IEEE Computer society conference on computer vision and pattern recognition. Ieee, 2010.
[42]Felzenszwalb, Pedro F., et al. nObject detection with discriminatively trained part-based models.n IEEE transactions on pattern analysis and machine intelligence 32.9 (2009): 1627- 1645.
[43]Girshick, Ross, Pedro Felzenszwalb, and David McAllester. nObject detection with grammar models.n Advances in neural information processing systems 24 (2011).
[44]Girshick, Ross, Pedro Felzenszwalb, and David McAllester. nObject detection with grammar models.n Advances in neural information processing systems 24 (2011).
[45]Andrews, Stuart, Ioannis Tsochantaridis, and Thomas Hofmann. nSupport vector machines for multiple-instance learning.n Advances in neural information processing systems 15 (2002).
[46]Girshick, Ross, et al. "Region-based convolutional networks for accurate object detection and segmentation.n IEEE transactions on pattern analysis and machine intelligence 38.1 (2015): 142-158.
[47]Ren, Shaoqing, et al. "Faster r-cnn: Towards real-time object detection with region proposal networks.n Advances in neural information processing systems 28 (2015).
[48]Redmon, Joseph, et al. "You only look once: Unified, real-time object detection.n Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[49]Hu, Jie, Li Shen, and Gang Sun. HSqueeze-and-excitation networks.H Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[50]Cha, So-Mi, Seung-Seok Lee, and Bonggyun Ko. HAttention-Based transfer learning for efficient pneumonia detection in chest X-ray images.n Applied Sciences 11.3 (2021): 1242.
[51]Woo, Sanghyun, et al. HCbam: Convolutional block attention module.n Proceedings of the European conference on computer vision (ECCV). 2018.
[52]Li, Jingxiong, et al. nMultiscale attention guided network for COVID-19 diagnosis using chest X-ray images.H IEEE Journal of Biomedical and Health Informatics 25.5 (2021): 1336-1346.
[53]Wang, Qilong, et al. nECA-Net: Efficient channel attention for deep convolutional neural networks.n Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
[54]Radiological Society of North America. RSNA Pneumonia Detection Challenge. Available online: www.kaggle.com/c/rsna-pneumonia-detection-challenge (accessed on 5 March 2023).
[55]Al YanXiShe. Identification of X-ray Focus of Pneumonia. Available online: https://god.yanxishe.com/23 (accessed on 5 March 2023).
[56]Masad, Ihssan S., et al. nA hybrid deep learning approach towards building an intelligent system for pneumonia detection in chest X-ray images.n Int. J. Electr. Comput. Eng 11.6 (2021): 5530-5540.
[57]Chouhan, Vikash, et al. nA novel transfer learning based approach for pneumonia detection in chest X-ray images.n Applied Sciences 10.2 (2020): 559.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9183.html

上一篇:基于深度学习的医学影像与诊断报告的跨 模态检索研究

下一篇:没有了

相关标签: