1 绪论
本章首先介绍深度学习医学影像报告可解释性研究的背景和意义,其次,介绍当前 国内外对医学影像中深度学习可解释性的研究和基于医学报告自动生成课题的研究成果 和发展状况,最后,给出本篇论文的具体章节安排。
1.1研究背景和意义
1.1.1研究背景
医学影像在疾病诊断和临床治疗等方面具有十分重要的作用,现代医学成像技术通 过对病人影像进行采样与重建,可以生成表示解剖区域功能和结构的医学影像[1]。近年 来,随着计算机科学的发展,医学影像的成像技术以及解读能力得到极大的提高,深度 学习成为机器学习研究的重要方向之一,在计算机视觉领域取得了重大进展。基于深度 学习的医学影像自动诊断技术可以实现病灶的检测、分割、定位和配准等多种任务,实 现疾病的自动化诊断,减轻影像科医生的工作压力。虽然医学影像自动诊断技术取得了 不错的进展,但在临床应用中仍面临一些亟待解决的问题,如:受数据驱动的深度学习 算法采用端到端的工作模式,不能给出疾病检测的病因病理,无法提供做出诊断的依 据,缺乏诊断过程的临床可解释性,难以辅助医生做出诊断。在这种背景下,医学影像 疾病检测可解释性问题已然成为深度学习在医学影像处理领域发展与实现临床应用的首 要难题。
面向深度学习医学影像处理过程的可解释性研究可以为疾病自动诊断与筛查提供可 理解的诊断依据,增强人们对自动诊断技术的信任,从而推动医疗诊断领域的智能化发 展,减轻影像科医生的工作压力。与基于自然图像处理的深度学习可解释性研究方法不 同,基于医学影像处理的深度学习可解释性研究方法受到数据与知识的双重影响,疾病 诊断需要医学领域知识,且处理过程需关注用医学知识解释诊断结果。在疾病诊断过程 中,将医学知识引入模型,运用自然语言处理方法将临床文本信息融入到影像处理过程 中,通过多模态的医学数据生成诊断报告,可为基于深度学习的疾病自动检测方法提供 可解释的诊断依据。医学影像诊断报告自动生成技术在影像诊断中除了输出是否患有某 种或几种疾病外,还可以模仿医生“写出”准确、流畅的诊断报告,从而帮助患者和医 生理解模型做出决策的依据。
影像报告自动生成方法不仅能运用多模态医学信息给出诊断结果,还可以模拟医生 编写诊断报告,为深度学习疾病检测方法提供了可解释的临床诊断依据。近年来,医学 报告自动生成技术正逐渐成为研究热点。随着相关领域大型数据集的公布以及研究的进 一步深入,医学图像报告自动生成算法正在逐渐完善。但是目前的报告生成算法生成诊 断报告的能力有限,难以为疾病自动诊断提供准确、有效、可理解的依据,还有极大的 研究空间。
1.1.2研究意义
本研究通过将图像识别技术与自然语言技术相结合,运用多模态的医学数据实现医 学影像疾病的自动诊断,生成可被解释的影像诊断报告,给出诊断依据。基于深度学习 的影像报告生成技术可以极大减轻影像科医生的工作负担,具有十分广阔的应用前景。 现有的方法生成的影像报告准确率不高,亟需一种高精度自动化手段完成医学报告的自 动生成任务,影像报告自动生成面临诸多难题。首先,医学影像之间高度相似,用于指 导报告生成的视觉特征是细粒度的,现有的方法无法充分利用影像报告中包含的医学信 息,从而限制了影像报告生成的准确性。此外,与自然图像中目标在图像中占据主导地 位不同,医学影像中的病灶较小,极易被忽略,对影像疾病检测以及报告的生成带来严 峻的挑战。其次,在影像报告中,报告的词汇通常面临长尾问题,不太重要的词汇反复 出现,而不同诊断报告的关键区别词只占诊断报告中词汇的少部分,平等的对待每个单 词会损害模型报告生成的能力。最后,影像报告通常由一句总结性的语句和多句描述语 句构成,其长文本特性导致在报告生成过程中极易产生重复单词和语句,从而影响报告 生成的流畅性。
针对上述问题,本论文展开了基于医学影像报告的疾病检测的可解释性研究,探究 如何自动生成准确、流畅且具有逻辑性的影像报告。首先,针对影像视觉特征提取困难 问题,本研究提出了一种改进的基于残差注意力块的高分辨率网络(HRRANet),该模型 用跳跃连接和残差注意力模块提取医学影像中的多层次视觉特征,跳跃连接可以最大程 度的保留医学影像的低维空间特征,残差注意力模块用于提取影像的局部与全局特征。 然后将提取到的多层次特征投入到解码器中指导诊断报告的生成,以提高报告生成的质 量。在此基础上,综合考虑影像报告中词汇的长尾问题,通过引入一种术语加权算法 (HRRA-TWNet),对报告中的不同词汇分配不同权重,以此反映每个单词对报告生成的 重要性区别。最后,将术语重复性惩罚机制集成到的HRRA-TW-RPNet,对报告生成过程 中出现的重复词进行指数项惩罚,减少影像报告生成过程中出现重复词汇、语句的情 况。
1.2研究现状
本节首先综述深度学习可解释性研究方法在医学影像处理中的研究进展,然后聚焦 通过医学影像自动生成诊断报告提供可理解的诊断依据方法的发展趋势和影像报告自动 生成技术面临的问题。
1.2.1医学影像处理中的深度学习可解释性研究
目前,深度学习方法被广泛应用于医学影像诊断中,用于实现疾病的分类、分割和 定位等。研究者通过将影像和预训练的卷积神经网络(Convolutional Neural Network, CNN) 相结合实现肺癌细胞[2]的自动检测。 Xu 等人[3]通过将影像转化为与非影像数据融 合的特征,学习多模态数据之间的相关性,诊断预测子宫颈的发育情况。现有方法运用 深度学习技术实现疾病的自动检测,可以缩短诊断时间,降低诊断成本,但深度学习辅 助疾病诊断系统往往只能输出单一的诊断结果,无法给出系统的决策依据,难以被医生 采纳,难以取得患者的信任,限制了医疗诊断系统临床应用的实现。近年来,深度学习 可解释性研究取得不错的成果,但这些研究的可解释性侧重于模型结构,而非医生和患 者导向的临床可解释。基于深度学习的医学影像处理技术在取得重大突破的同时也引发 了人们对深度学习可解释性的研究与思考。最近,医学影像处理中的深度学习可解释性 备受人们关注,尤其在 2019 年的 MICCAI 专门设置工作组讨论医学影像处理中深度学习 可解释性的发展现状和未来趋势。
医学影像处理中的深度学习可解释性研究主要有病灶可视化、病历语义化等方式[4]。 病灶可视化指运用热力图[5]、注意力机制[6-8]等方法,结合其他多种手段[9-10]探究模型做出 决策所依据的视觉像素,找出病灶区域位置以提供可视化证据。如Paschali等I"]使用模型 激活细粒度的 Logit 热力图来解释医学影像决策的过程。 Lee 等[6]提出了一个可解释的深 度学习框架,该框架能够模拟影射科医生的工作流程,利用头部 CT 扫描数据检测急性颅 内出血的同时生成热力图 ,利用类激活映射[11]从医学数据中检索预测依据。 Liao 等[7]使 用基于注意力机制的弱监督方法为青光眼的自动检测提供了可视化解释,在自动检测青 光眼的过程中,检测系统不仅能够给出检测结果,还给出热力图和预测基础,增强模型 决策的可解释性。在基底细胞癌变检测过程中,通过一个解释层将在诊断决策中起重要 作用的图像区域聚集在一起[9]。Biffi等[1°]在图像上运用可视化方法来量化病理的特异性, 使决策过程透明化。大量研究[12-17]通过自然语言处理方法将病历信息融入到影像处理过 程中,运用多模态医学信息,将医学影像映射为诊断报告,可以给出可理解的诊断依 据。 Zhang 等[12]将影像模型和语言模型统一在深度学习框架中,在医学影像和诊断报告两 个模态之间建立映射关系模拟医生诊断并编写诊断报告,提供了可理解的诊断依据。 Wang 等[13]通过将文本中获取先验领域知识与疾病症状相关联,开发了用于检测多种疾病 的 CAD 框架,在改进深度学习模型性能的同时,提供了更精准的诊断报告。 Shen 等[14]通 过在预测恶性肿瘤过程中量化诊断特征,得到专家知识驱动方式形成的语义特征解释模 型的的决策。 Kim 等[15]结合疾病诊断网络和病变生成网络,学习肿瘤与诊断描述之间的 关系,实现可解释的乳腺肿块自动诊断。 Zhang 等[16]提出基于语义和视觉可解释的医学影 像诊断模型,生成影像的表达,但模型复杂度较高。 Fauw 等[17]进一步改进了该模型使其 结果与专家临床诊断结果相当,并在输出诊断概率的同时输出转诊建议。在进行疾病辅 助诊断时,将深度学习模型与医学领域知识相结合,可以在输出诊断结果的同时提供模 型做出决策的依据。当深度学习模型决策与医生诊断不一致或与所依据的医学知识不一 致时,可以通过进一步分析进行更好的决策。当医生的决策准确时,便对深度学习模型 进行调整,以进一步提升模型的性能。 如果深度学习模型的决策准确,便可更好的辅助 医生做出决策。 Li 等[18]结合 shapely 值研究功能性核磁共振成像中的自闭症检测任务, 通过共享变量引擎(SVE)查看单个特征,从而提供模型做出决策的依据。
以上方法增强了深度学习医学影像处理中的可解释性,但其与医学知识的融合尚不 够。基于医学知识的医学影像可解释性诊断方法尚需进一步探讨。
1.2.2基于医学影像报告生成的疾病检测可解释性方法研究
医学报告生成可以为输入的医学图像生成内容描述,可以视为图像描述任务的子任 务。近几年伴随着各种图像描述模型的成功,医学报告生成技术也取得了极大的进展。 与自然图像描述任务类似,大部分医学报告自动生成模型基于编码器-解码器结构。但由 于医学影像特征较自然图像更复杂,且医学报告通常为包括总结与印象的一整段,比一 般的图像描述更长,常用的自然图像描述模型在此任务上表现不佳。目前,有许多专门 生成医学报告的模型被提出。 Shin 等[19]提出了从图像及其文本中联合挖掘上下文的方 法。 Jing 等[20]提出了一种多任务框架,可以预测图像对应的医学标签的同时通过联合注 意力机制在解码器中融合标签语义。弱监督学习方法也被用于医学报告生成任务,该方 法[21]通过使用对象级注释的弱监督框架,而无需放射科级别的报告注释来生成统一的诊 断报告。与 Jing 等人工作类似,两级解码器[22]被提出用于捕获额外的医疗标签信息。受 医学图像数据集大小的限制, Yuan 等[23]在影像学报告中提取医学概念与多视图图像特 征,以丰富语义和视觉特征。为了在报告生成时区分异常和正常句子、增加生成段落的 多样性, Harzig 等[24]提出在多层 LSTM 模型中使用两个单词级别的 LSTM 来分离异常和 正常的句子生成。 Gale 等[25]通过训练一个简单的循环神经网络模型来生成句子,以阐明 深度学习分类器的决策。 Gu 等[26]提出了一种基于医学影像语义标记的肺放射学报告生成 模型。为解决 LSTM 结构无法并行的问题,一种多层 Transformer 结构[27]被提出并应用于 医学报告生成。为了说明放射学领域的差别,文献[28]建立了一个胸部 X 射线报告生成系 统,该系统首先预测报告主题,然后生成对应的报告。为了生成更准确的医学影像报 告,文献[29-30]通过引入知识图谱对医学图像中的视觉关系进行建模,然后将这些关系信 息注入到现有的框架中指导报告生成。一种先使用 Resnet 编码图像,再使用余弦相似性 检索相似训练图像,并将检索的相似图像的报告作为结果的策略被应用[31]。为填补医学 影像视觉到语义的巨大鸿沟,Yang等[32]提出了一种三分支网络(TriNet),通过对深层视 觉和语义特征进行编码,来提升医学图像报告的生成质量。
上述医学报告自动生成模型有效提升了医学报告的生成质量,但最终的结果表明, 现有方法仍然不能从高度相似的影像报告中提取关键视觉特征,并且生成的报告存在出 现重复词的情况,无法为影像科医师以及临床应用提供满意的临床解释。
1.3论文研究内容及贡献
1.3.1研究内容
本论文研究如何提高医学报告自动生成的质量,以为深度学习疾病自动诊断方法提 供可理解的临床决策依据,并从三部分讨论了医学报告自动生成方法面临的问题及相应 的解决方案。首先,针对医学影像彼此十分相似,病灶关键区域的视觉特征提取困难, 无法充分利用医学影像中的视觉信息问题上,提出了一种改进的基于残差注意力块的高 分辨率网络新架构(HRRANet),以解决影像报告中细粒度视觉特征难以提取的问题。其 次,针对报告的词汇面临长尾问题,提出了一种术语加权方法(HRRA-TWNet)通过对 报告中词汇赋予不同权重来反映不同单词对报告生成重要性的区别,以保证模型关注关 键的区别词,减小大量出现的不太重要的词对报告生成的影响。最后,针对由医学影像 诊断报告的长文本特性导致在生成过程中产生重复词的问题,提出了一种重复性惩罚机 制。通过应用针对重复词的指数级惩罚项,减少生成的诊断报告中重复语句的出现。论 文的研究思路如图 1-1所示。
图 1-1 论文主要研究内容及关系示意图
1.3.2论文贡献
论文研究了如何充分利用医学影像报告中的视觉信息、诊断报告中词汇分布长尾性
导致报告生成质量不佳以及诊断报告长文本特性导致报告生成重复语句等问题,提出了
一系列解决方法,主要贡献如下:
(1)针对无法充分利用医学影像中的视觉信息提出了一种改进的基于残差注意力块 的高分辨率网络新架构(HRRANet)。该架构包括添加的跳跃连接以及残差注意力模块, 以提取医学影像中的多层次视觉特征。添加的跳跃连接与残差注意模块被用来提取影像 中的局部与全局特征,并利用提取到的多层次特征指导诊断报告的生成。
(2)针对由于诊断报告词汇长尾问题导致生成诊断报告质量不佳的问题提出了一种 集成术语加权方法的报告生成模型(HRRA-TWNet)。通过对报告中词汇赋予不同权重来 反映不同单词对报告生成重要性的区别,以保证模型关注关键的区别词,减小大量出现 的不太重要的词对报告生成的影响。首先,我们对诊断报告中词汇进行文本预处理与特 征提取,然后计算每个单词的权重。最后将它们合并到医学影像报告生成常用的交叉熵 损失中用于指导模型区分词汇的重要性。
(3)针对由影像诊断报告长文本特性导致在生成过程中产生重复词的问题,提出了 一种集成重复性惩罚机制的影像报告生成方法(HRRA-TW-RPNet)。当重复词出现时, 我们即对出现的高频重复词施加一个指数级的加权惩罚,从而使模型生成具有多样词的 诊断报告,提高生成报告的连贯性和可读性。
1.3.3论文结构
通过对基于医学影像自动生成诊断报告以提供可理解诊断依据的方法所存在问题的 研究,论文提出了一系列的改进方法。论文包括五章内容,第一章介绍了论文的研究背 景及意义、研究现状和论文研究内容及论文结构;第二章提出了基于残差注意力机制的 高分辨率表征学习模型(HRRANet);第三章提出了基于无监督的轻量型术语加权算法的诊 断报告生成模型(HRRA-TWNet);第四章提出了基于重复惩罚机制的诊断报告生成模型 (HRRA-TW-RPNet) ;第五章对论文所做的工作进行了总结,对未来研究进行展望。论文 的组织结构如图 1-2 所示。
图 1-2 论文组织结构图
2基于残差注意力的高分辨率表征模型(HRRANet)
本章完整阐述所提出的基于残差注意力模块的高分辨率网络方法(HRRANet)。 HRRANet 分为视觉特征提取模块与影像报告生成模块。视觉特征提取模块第一阶段从一 个高分辨率分支开始,在接下来的每个阶段,一个新分支与当前分支中分辨率最低的分 支并行添加到当前分支。其不同分辨率的分支并行,前一阶段的分辨率会在后期保留。 当遇到每个下采样层时, 我们提取下采样块的特征表示。模型通过卷积神经网络 (CNN)之后的残余注意力模块[33](RAM)学习突出的瓶颈特征,增强编码器的能力。
然后使用平均池化层,提取有意义的内容,并添加丢弃层以减轻模型的过度拟合。报告 生成模块通过提取的视觉特征自动生成医学影像报告。本章工作为后续工作奠定了基 础。
2.1问题引入
深度学习在医学图像处理领域取得了重大突破,最近,研究者们开始借助自然语言 处理方法将诊断信息融入到影像处理过程中,通过多模态医学信息为医学影像生成诊断 报告,给出可理解的诊断依据,增强深度学习疾病检测的临床可解释性。由于医学图像 彼此非常相似,具有临床重要性特征的视觉差异通常是细粒度的,因此,如何有效的从 高度相似的医学影像中提取视觉特征是生成高质量影像诊断报告的基础工作。目前,有 很多工作致力于如何有效提取影像报告中的视觉特征。这些方法采用的策略大多是引入 注意力机制增强视觉特征的提取能力,减少模型的误差。但现有的改进对模型视觉特征 提取能力的提升有限,需要更高效的视觉特征提取模型提高诊断报告生成的质量。
高分辨率网络(HRNet)通过并行多个分辨率的分支,不断进行不同分支之间的信息
交互,从头到尾保持高分辨率,不同分支的信息交互可以补充通道数减少带来的信息损 耗。深度卷积神经网络中分辨率较高且层数浅的卷积层会含有比较丰富的低层信息,跳 跃连接可以将语义信息更丰富的高层卷积特征层和低层卷积特征进行融合,结合较浅的 低层特征信息,融合后的多层次特征含有更加丰富的视觉信息。残差注意力模块以一种
创新的方式 soft attention 整合到前馈网络结构中,从而有效地将通道注意力和空间注意力 融合起来。以上工作启发我们提出了基于残差注意力的高分辨率网络方法,以提高模型 提取视觉特征的能力。
本章的主要工作如下:
(1)提出了基于残差注意力的高分辨表征模型(HRRANet)。通过添加的跳跃连接以 及残差注意力模块,提取医学影像中的多层次视觉特征,提高模型提取视觉特征的能 力,以更好的完成疾病检测以及诊断报告生成任务。
(2)提出的 HRRANet 有效提高了模型提取视觉特征的能力,可以更好地完成疾病 检测任务,并生成的高质量诊断报告为疾病检测提供可理解的临床诊断依据。
(3)进行了大量实验证明基于残差注意力模块的高分辨率网络的性能。实验结果表 明,HRRANet性能优于目前先进地医学影像报告生成模型。
2.2HRRA-Net 模型
本节详细介绍所提出的HRRANet模型。HRRANet模型如图2-1所示,它遵循标准的 编码器-解码器架构。该模型包括视觉特征提取模块和报告生成模块。视觉特征提取模 块:将图像作为输入,用 CNN 提取医学影像中的视觉特征。并将其输出送到文本解码器 产生影像诊断报告。报告生成模块:利用视觉特征提取模块所提取的多层次视觉特征完 成诊断报告生成。
2.2.1视觉特征提取模块
本论文使用经过改进的HRNet作为所提出模型的视觉提取器,HRRANet通过添加的 跳跃连接与残差注意力模块提取医学影像报告中的多层次特征。
HRNet 从一个高分辨率分支开始,在接下来的每一个阶段,都会在当前分支中并行 添加一个新分支。随着网络有更多阶段,它将具有不同分辨率的并行分支,并且来自前 一个阶段的分辨率都会保留在后一个阶段。HRNet在语义分割、实例分割和物体检测任 务中取得了出色表现。
跳跃连接的设计初衷是为了解决梯度消失问题。深度神经网络学习过程通常通过梯 度下降的方式,即从网络的输出层开始计算每一层的梯度。由于梯度值通常是小于 1 的 数,当层数增多时,梯度就会变得越来越小,最终出现梯度消失的问题。当梯度无限接 近于 0时,网络就没有办法进行更新学习。通过在网络的中间层额外加入浅层的输入,使 梯度更新的路径相对减小以减缓梯度消失的问题。
跳跃连接主要有两种方式:Addition和Concatenation。Addition方式增加了一个 Residual Block (RB),这个 block 通过 “identity function”的方式提供捷径[34]。RB 方式 F(x)输入为x,输出为F(x) + x,uidentity ”思想体现在输入与输出都有一个x。
图 2-2ResNet 跳跃连接
Concatenation 方式源于 DenseNet[35] , 在一个 Dense Block 中, 较浅层的输入被 concatenate 在一起输入到下一层网络,一层层递推,网络中深层获得更多的 concatenate 信息,这种方式产生多条“捷径”浅层的输入可以通过concatenate传递到网络深层。
图 2-3 DenseNet 跳跃连接
HRRANet 在 HRNet 低分辨率分支与高分辨率分支并行运行遇到下采样层时,采用 concatenation 方式提取下采样块的特征表示。
注意力机制的研究是深度神经网络的设计趋势,其应用在计算机视觉各种任务中表 现出色。RAM(Residual Attention Moudule)可以对通道注意力与空间注意力进行有效融 合,使网络进行更加有效的训练。本研究在卷积网络之后使用残差注意力模块来识别医 学影像中的视觉特征,增强编码器提取视觉特征的能力。其中,H、W和D对应于CNN 特征图的高度、宽度和深度。RAM层被用来提取影像的局部与全局特征,局部特征提供 对象级区域特征,全局特征描述图像的高阶表示,从而可以完整的利用影像中的视觉信 息。RAM层的输出被压平获得影像的局部空间特征(Vs),空间特征通过密集层与全局 平均池化层产生全局特征(Vg)。然后使用丢弃层,以提取有意义的内容,并减轻模型的过 拟合。
对于医学影像 Im g ,通过带有跳跃连接和残差注意力块的 HRRANet 作为我们的视觉 提取器来提取视觉特征 X 。视觉提取过程被定义为:
{兀,壬,…,Xs } = f (Im g) (2-1)
其中f (•)表示视觉提取器。
2.2.2报告生成模块
该 模 块 用于 诊 断 报告的 自 动 生成 , 本 研究使 用 Chen 等人[36] 介绍 的 内存增 强 Transformer取代常用的用于长段落生成的分层LSTM,它使用关系存储器(RM)来学习并 存储生成过程中的关键信息,然后,采用一种新的层标准化机制(MCLN)将关系存储器合 并到解码器中,可以在长范围内充分地探索单词关系,从而更好的完成长文本报告的生 成任务。
本研究报告生成模块采用标准 Transformer 编码器,输出为视觉提取模块提取的输入 特征X,编码的隐藏状态h :
{h1, %hS } = fe {X1,X2,…,XS } (2-2)
其中f (•)表示编码器。
本模型中的解码器是包含 RM 和 MCLN 的 Transformer 解码器的修改版本,解码过程 可以形式化为:
yt = fd (久…,h, MCLN(RM(y],...,yt-1) (2-3) 其中f (•)指解码器,RM为关系存储器,MCLN为关系存储器的条件标准化层。
除了常见的多头自注意力(MSA)和前馈层(FF)外,编码器还采用了关系存储器的条 件标准化层(MCLN)。与传统的归一化层相比,MCLN通过将其输出m馈送到丫和0, 以此合并上述提出的关系存储器模块。这种设计可以从关系存储器获取之前生成过程中 记录的信息,同时防止其影响 Transformer 的参数,从而使报告生成的一些核心信息不受 影响。条件标准化层的表达式如下所示:
MLN = yO^^ + 0
b (2-4)
A A 人 人 A
其中y和0分别表示为r = r+ fmp(m),0 = 0 +九p(m),fmlp(•)为线性投影函数。
2.3实验结果与分析
本节主要包含对比模型介绍与实验结果分析。在详细介绍实验结果之前,本节先介 绍实验数据和评价指标。
2.3.1实验数据
为测试论文所提出的模型的性能,将其与两个公共数据集上的多种先进图像字幕和医 疗报告生成方法进行了比较。
(1)IU-Xray 数据集
IU-Xray 射线作为医疗报告生成任务中使用最广泛的基准,由印第安纳大学胸部 X 射 线采集[37],包含 3955 份完全未识别的放射学报告,每个报告都有正面和/或侧面胸部 X 射线图像(见图 2-5),总计 7470 张胸部 X 射线图像。
图 2-5 IU-Xray 胸部 X 射线影像示例
每个报告(见图 2-6)由“印象”、“发现”和“标签”等部分组成,其中“印象”是 对图像的一个句子描述, “发现”是一个有证据详细描述的长段落, “标签”是使用医学 文本索引器识别的关键词。在这个数据集中,通过只考虑具有两个完整图像视图的报告 以及“发现”和“印象”的完整部分。在排除了没有报告的样本后,本研究使用了 3195 个报告和 6390 个图像的较小数据集,并按整个数据集的 7:1:2 划分为训练/验证/测试 集,所有评估都在测试集上完成。
( 2) MIMIC-CXR 数据集
最近发布的MIMIC-CXR[38]是包含胸片和自由文本报告的最大公共数据集,2011年 至2016年期间,共收集377110张胸部x光图像和227835份来自贝思以色列女执事医疗 中心 64588 名患者的报告[39]。在本研究实验中,为了公平比较,采用了 MIMIC-CXR 在 工作[36]之后的官方拆分,总共产生了 222758 个样本用于训练, 1808 个样本和 3269 个样 本用于验证和测试。MIMIC-CXR胸部X射线影像与报告示例见图2-7。
INDICATION: Abdominal pain and distention
Findings: Frontal and lateral views of the chest show an unchanged cardio mediastinal silhouette.
There is bibasilar interstitial opacity and let) basal plate like opacity XXXX due to discoid atelectasis and/or XXXX scarring. There are emphysematous changes, particularly within the right upper lobe.No XXXX focal airspace consolidation or pleural effusion.
Impression: 1. COPD. Basilar probable pulmonary fibrosis and scarring. 2.No acute cardiac or pulmonary disease process identified.
Labels:
Manual annotation: Opacity/lung/basc/bilateral/intcrstitial/Pulmonary/Atclcctasis/basc/lcft Cicatrix/lung/basc/left Pulmonary Emphysema Pulmonary Disease, Chronic Obstructive/ Pulmonary Fibrosis/basc
MT1 annotation: Cicatrix, Pulmonary Fibrosis, Pulmonary Atelectasis, Lung, Pleural Effusion, Pulmonary Disease, Chronic Obstructive
图 2-6 IU-Xray 胸部 X 射线报告示例
对于这两个数据集,本研究使用成对的正视图与侧视图作为 IU-Xray 的输入,对
MIMIC-CXR使用单个图像作为输入,以确保与Chen等人[36]的实验设置一致。两个基准
数据集图像数量、报告数量以及报告平均长度的统计数据如下表 2-1所示。
表 2-1 基准数据集统计数据
数据集 IU-Xray MIMIC-CXR
训练 验证 测试 训练 验证 测试
图像数量 5226 748 1496 368960 2991 5159
报告数量 2770 395 790 222758 1808 3269
平均长度 38 37 34 53 53 66
2.3.2评价指标
( 1 ) BLEU
随着自然语言技术的发展,如何有效评估模型的结果成为限制模型迭代的瓶颈。双 语互译质量评估辅助工具(Bilingual Evaluation Understudy,BLEU)是一种在机器翻译任务 中常用的评价方法[40]。它的总体思想就是准确率,按单个词去统计的方法统称为 uni -grams(一元组集),由于深度学习模型和数据的复杂性,通常面对n-grams(多元组集)的情 况,根据 n-gram 可以划分为 BLEU-1, BLEU-2, BLEU-3, BLEU-4 四种评价指标。 BLEU 得分的计算规则大致是首先通过式2-5推出 n-gram 的词的精度:
E
CounterClip(n - gram)
厂二 n—gyamy 丄、 o 丿 (2・5 )
n Counter(n - gram)
其中,分母表示机器翻译得到的语句中所有的 n-gram 词组个数,分子是出现在相关中词 组(经过截断后)的个数。由此可以得到 BLEU 分数,即为式2-6:
1n
BLEU = BP x exp(-工 PN) (2-6)
n i =1 N
其中,pn表示词组出现的概率,BP是惩罚因子,用来惩罚一句话的长度过短,防止训练
结果倾向断句的现象,其表达式为式 2-7:
1-
BP = \e lp,ls < lp (2-7)
J,Is > Ip
其中,ls表示真实文本答案中句子的长度,Ip为模型生成的句子长度。
( 2) ROUGE
ROUGE(Recall Oriented Understudy for Gisting Evaluation,ROUGE)是常用的机器翻译 评价、自动摘要、问答生成等任务中的评价指标。 ROUGE 由 Chin-Yew Lin 提出,基于召 回率(Recall)衡量生成结果与标准结果之间的匹配度。在论文中主要提出了 4种ROUGE 方法:ROUGE-N:将模型生成结果与标准结果按N-gram拆分并计算召回率;ROUGE-L: 考虑了生成结果和标准结果之间的最长公共子序列;ROUGE-W:改进了 ROUGE-L,加权 后计算连续匹配的最长公共子序列长度;ROUGE-S:允许跳过某些词,计算跳跃间隔的 二原组同时出现的统计量[41]。本文选择 ROUGE-L 来验证模型生成的文 本和真实文本的 相似度。 ROUGE-L 的公式 2-8为:
ROUGEl =(l “)肿
L r+e2 p
p _ lmax
ln
r =乩
lm
心P
Rl
其中, lmax 为利用模型生成的医疗影像报告和真实的医疗影像报告的最长公共子序列的长 度,n为利用模型生成的医疗影像报告的文本长度,m为真实的医疗影像报告的长度。
( 3) CIDEr
该项指标将BLEU指标与向量空间模型相结合评价图像字幕生成任务,CIDEr将每个 句子视为一个文档,并计算 TF-IDF 向量的余弦夹角,得到语句间的相似度,最后从不同 长度的 N-gram 相似度中取平均结果作为评价标准, CIDEr 的优势在于不同的 N-gram 随 着 不同的 TF-IDF 具有不同的权重,整个语料库中常见的 N-gram 包含更小的信息量[42]。
在本研究中设/ =(厶厶…卫)为医学影像的集合,6k为第K个n元组,
T (P) = (t (P),..., tr (Pr))为模型自动生成的医疗影像报告P的TF-IDF向量,
T(SJ = (t(SJ,...,tr(Sr))为医疗影像的真实报告文本S’的TF-IDF向量,则CIDEr的公式
为:
N
CIDEr (P, Si)=工 anCIDEJP, SJ
n=1
其中,h(P)为n元组休在利用模型生成的医疗影像结果P中所出现的次数,h(SjZ.)为n 元组0k在对应真实医疗报告文本中SjZ出现的次数,an为规范因子,值大小为丄。
k ji n n
2.3.3模型对比
为了验证本论文提出的 HRRANet 的有效性,本节在两个公开的数据集上验证评估所 提出的模型以及各模块的有效性,并将以下几个先进模型作为基线。
CNN-RNN[43]是经典的图像自动描述模型,由CNN编码器与RNN解码器组成。其 中, CNN 被 用来从图像中提取特征,并使用 RNN 完成文本序列生成任务。
Top-Down[44]是一个基于编码器-解码器的经典模型,使用一种自上而下的注意力机 制,将部分完成的描述输出作为上下文表示。自上而下的注意力机制用来训练有选择地 处理卷积神经网络地输出。
MRMA[45 ]提出一个基于注意力机制的多模态循环生成模型,该模型在语义特征与图 像特征之间添加了一个注意力机制以捕捉图像各区域与句子之间的关联性,并通过循环 生成的方式逐句生成报告的长段落。
R2Gen 模型使用添加的关系存储器记录之前生成过程产生中的信息,并引入一种新 的层标准化机制来将关系存储整合到 Transformer 中,改进了模型生成长文本报告的能 力。
表 2-1 展示了本章提出的 HRRANet 模型和四个基线工作在 6 个自然语言评价指标上
的对比结果,其中所有的基线工作实验结果都是我们复现得到的。
表 2-2HRRANet 与其它模型的性能比较
Dataset Model BLEU-1 BLEU-2 BLEU-3 BLEU-R ROUGE CIDEr
CNN-RNN 0.276 0.168 0.107 0.063 0.238 0.197
IU
X-RAY Top-Down 0.281 0.179 0.118 0.079 0.276 0.208
MRMA 0.417 0.253 0.172 0.120 0.305 0.314
R2Gen 0.434 0.276 0.197 0.147 0.349 0.351
HRRANet(ours) 0.451 0.288 0.204 0.151 0.352 0.338
CNN-RNN 0.215 0.132 0.062 0.029 0.197 0.106
MIMIC-
CXR Top-Down 0.241 0.154 0.109 0.083 0.309 0.114
MRMA 0.343 0.225 0.141 0.104 0.316 0.153
R2Gen 0.341 0.208 0.136 0.094 0.257 0.142
HRRANet(ours) 0.346 0.212 0.144 0.103 0.323 0.164
如表所示,与多个先进的报告生成模型相比,HRRANet在多个指标上均取得了最好 的结果,远超出所列出的基线工作。特别的,与使用在 Imagenet 上预训练 ResNet101 作 为视觉特征提取器的R2Gen相比,采用相同的报告生成模块,本章提出的HRRANet模型 的视觉提取器在报告生成质量上取得了明显的改进。对比实验结果显示了 HRRANet具有 优越的报告生成性能以及更加有效的视觉特征提取能力。图 2-8 展示了这些模型生成的报 告样本。从图2-8可以观察到,CNN-RNN与Top-Down生成的结果较为简单,MRMA使 用循环生成句子的结构, R2Gen 使用记忆存储器与新的层标准化机制,生成的报告相对 更长一些。本章所提出的HRRANet相比于其他基线工作可以生成更加连贯且准确的报告 语句。
图 2-8 HRRANet 报告自动生成结果展示
2.3.4实验讨论
为了验证HRRANet模型各组件的有效性,我们设计了消融实验,详细信息如下。
HRNet:未添加任何模块。
HRRANet(C):仅使用跳跃连接模块。
HRRANet(R):仅使用残差注意力模块模块。
HRRANet:所提出的模型。
消融实验结果如表 2-3。
表2-3HRRANet消融实验结果
Dataset Model BLEU-1 BLEU-2 BLEU-3 BLEU-R ROUGE CIDEr
HRNet 0.426 0.251 0.177 0.144 0.335 0.309
IU HRRANet(C) 0.447 0.268 0.192 0.154 0.344 0.317
X-RAY HRRANet(R) 0.452 0.263 0.185 0.151 0.345 0.324
HRRANet(ours) 0.451 0.288 0.204 0.151 0.352 0.338
HRNet 0.328 0.132 0.092 0.079 0.309 0.156
MIMIC- HRRANet(C) 0.347 0.154 0.109 0.105 0.324 0.159
CXR HRRANet(R) 0.343 0.209 0.127 0.101 0.317 0.157
HRRANet(ours) 0.346 0.212 0.144 0.103 0.323 0.164
消融实验显示,所添加跳跃连接以及残差注意力块的HRRANet是最好的模型配置,
能够从彼此相似的影像中提取关键视觉特征,显著提高诊断报告生成的准确性。
2.4本章小结
本章提出了基于残差注意力块的高分辨率网络。与现有的工作不同,HRRANet可以 充分提取医学影像中的多层次视觉特征,合并局部与全局特征用于影像诊断报告的自动 生成。实验结果表明,与现有的模型相比,本章提出的HRRANet方法显著提高了影像报 告生成的准确率。
3 基于残差注意力与术语加权的高分辨率网络
(HRRA-TWNet)
本章完整阐述基于残差注意力与术语加权的高分辨率网络。通过对报告中词汇赋予 不同权重来反映不同单词对报告生成重要性的区别,以保证模型关注关键的区别词,减 小大量出现的不太重要的词对报告生成的影响。首先,通过对诊断报告中词汇进行文本 预处理与特征提取,计算每个单词的权重。然后将它们合并到报告生成常用的交叉熵损 失中用于指导模型区分词汇的重要性。本章通过术语加权算法解决由诊断报告词汇长尾 特性而导致报告生成质量不高的问题,为后续研究打下了基础。
3.1问题引入
最近,研究者们开始借助自然语言处理方法将诊断信息融入到影像处理过程中,通 过多模态医学信息为医学影像生成诊断报告,给出可理解的诊断依据,增强医学影像数 据处理的临床可解释性。随着研究的深入,利用深度学习自动生成的诊断报告正确率越 来越高。然而,现有的医学报告生成方法仍难以生成兼顾准确性、流畅性与逻辑性的报 告,难用实现临床应用。
我们发现现有的研究大多侧重于通过添加注意力机制来改进视觉模型提取视觉特征 以及语言模型生成报告的能力,很少有研究关注医学报告本身的特性。在影像报告中, 报告的词汇通常面临长尾问题。不太重要的词出现的频率很高,而关键区别词在报告中 占少部分。本研究所用数据集中词汇分布情况如图 3-1 所示,高频词汇统计如图 3-2 所 示。平等对待每个单词会损害模型在报告中生成重要信息的能力。因此,我们提出了一 种术语加权算法(HRRA-TWNet)解决诊断报告中词汇的长尾问题。通过对报告中词汇 赋予不同权重来反映不同单词对报告生成重要性的区别,以保证模型关注关键的区别 词,减小大量出现的不太重要的词对报告生成的影响。
本章的主要工作如下:
(1)提出了一种术语加权算法(HRRA-TWNet)解决诊断报告中词汇的长尾问题。
该方法通过对报告中词汇赋予不同权重来反映不同单词对报告生成重要性的区别,以保
证模型关注关键的区别词。为解决医学报告生成的流畅性、准确性提供了一种新思路。
(2)通过对诊断报告中词汇进行文本预处理与特征提取,计算每个词汇的权重。然
后将它们合并到报告生成常用的交叉熵损失中用于指导模型区分词汇的重要性,使模型 区分不同报告词汇的重要性。
(3)进行了大量实验证明HRRA-TWNet的性能。所提出的术语加权方案优化了报告
生成过程中不同词汇的处理,提高了报告生成的准确率,更好的完成了诊断报告自动生
成任务。
3.2HRRA-TWNet 模型
本章完整的阐述基于残差注意力与术语加权的高分辨率网络。在视觉特征提取阶 段,我们采用上述提出的 HRRANet 提取多层次视觉特征。在报告生成阶段,我们采用 Chen等人介绍的Transformer解码器的修改版本,并提出一种术语加权算法解决诊断报告 词汇的长尾问题。具体来说,该算法通过对报告中词汇赋予不同权重来反映不同单词对 报告生成重要性的区别,以保证模型关注关键的区别词,这对于模型提升报告生成的精 度具有很大的帮助。
本章提出的 HRRA-TWNet 模型包括视觉特征提取模块和报告生成模块。视觉特征提 取模块如第二章所示。在报告生成模块,本研究提出一种术语加权算法指导诊断报告的 准确生成,减弱重复出现的不重要词汇对模型报告生成性能的影响。下面介绍所提出的 术语加权算法,包括报告词汇权重计算与术语加权损失两部分。
3.2.1报告词汇权重计算
本研究提出的报告权重计算方法主要有三个步骤:(1)文本预处理;(2)特征提取; (3)计算术语得分。第一步通过预处理操作识别词汇。第二步将单个词汇作为输入,通 过一组统计特征来表示它们。在第三步中,将词汇统计特征组合为一个反映该词汇重要 性的分数。
在第一步预处理操作中,首先将医学报告文本分成句子,在这里使用基于 segtok 分 割器,它将英文文本拆分为句子,例如“ Python is awesome! But C# is also very good "会 被分成两个句子(“Python is awesome! ";"But C# is also very good"),然后,每个句子被 分成块(通过标点符号)。本研究使用了 Segtok 分割器的 Web tokenizer 模块完成这个过 程,接着将每个词汇转换为其小写形式,并用标签分隔符进行注释。表 3-1 描述了我们考 虑的每个标签。预处理阶段的结果是一个句子列表,其中每个句子被划分为注释术语形 成的块。接下来,将描述本论文工作中考虑的每个统计特征。
表 3-1 预处理阶段考虑的标签列表
标签 名字 描述
d 数字 由数字组成的术语,包括“,”和”隔开的术语 下列任何一项: 由至少两个标点符号组成的内容
u 特殊内容 包含一个既不是数字也不是字母的字符
由数字和字母组成
由一个以上的数字和一个字符组成
a 首字母缩写 仅由大写字母组成的术语
U 大写字母 以大写字符开头且不作为句首
P 内容 所有剩余内容
为了更好地说明这个标记过程,我们在表 3-2中给出了一个给定文本的例子,该文本 仅由一个句子组成(表的第一行)。最后三行显示了在句子中识别的三个组块和相应的标 记。文本的每个语言单元都被视为一个术语。
表3-2文本预处理
The lungs are clear of consolidation, effusion, or pulmonary vascular congestion.
块 1 :<p>The <p>lungs<p> are<p> clear<p> of <p>consolidation
块 2: <p>effusion
块 3: <p>or <p>pulmonary<p> vascular<p> congestion
(2)在特征提取阶段,首先创建一个空结构并命名为术语,用于保存文本中找到的 所有术语以及其它信息,如统计特征数据和权重。然后,在句子列表和组块列表中进行 迭代,将组块划分为带注释的标记,并计算它们的术语频率(TF),缩写词的术语频率 (TF_a)和大写术语的术语频率(TF_U),所有这些统计信息都保存或更新在术语数组中。计 算出每个术语的统计数据后进行特征提取过程,通过四个特征计算每个术语的重要性权 重,分别为大小写(Tease )、术语频率(TFn。” )、术语与上下文相关性(Tel)和术语在 不同句子中出现的频率(Tentne )。下面给出这些特征中每一个的详细解释。
在考虑报告词汇权重时,词汇的大小写是一个重要的特征。大写的词汇往往比小写的 词汇更加重要。此外,本研究还考虑缩写词的情况,其单词的所有字母都是大写字母。
本论文只考虑其中两种情况中的最大出现次数。兀叱计算如下:
max(TF (U ( ), TF (/)))
ln(TF (t))
其中 TF(U(t)) 是以大写字母开头的词汇 t 的出现次数, TF(A(t)) 是 t 被标记为首字母缩写
词的次数,TF(t)是t的出现频率。本研究认为词汇用大写字母出现的频率越高,它就越 重要。
TFNorm 反映词汇的频率越高则重要性越大。然而,这并不意味着重要性与某个词汇出
现的次数成正比。因此,为了防止偏向高频词汇,本研究将 t 的 TF 值除以频率的平均值
(MeanTF )加上其标准偏差(b ),TFNorm计算如下:
词汇与上下文的相关性( TRel )量化了词汇 t 相对于其特定上下文的分布。本研究根 据 Machado 等人的假设[46],词汇 t 两侧同时出现的不同项的数量越高, t 的重要性就越 低。。厶[。口如下式:
其中, DL[DR] 量化与词汇 t (在左[右]侧)同时出现的不同词的数量与它共同出现的词 的数量之间的比率。I At|表示出现大小为2的窗口内的词汇t的左[右]侧不同术语的数 量,CoOccurt,k表示与术语t同时出现的术语数量。然后将DL和DR乘以词汇的词汇频率 除以报告中出现的所有词汇中的最大词汇频率( MaxTF ),以惩罚出现频率高并且在左侧 和右侧都有许多不同词汇的项。TRei可表示为:
词汇 t 的重要性越低,该特征的得分就越高。
TSentence 特征量化了一个词汇在不同句子中的出现频率,本研究认为出现在许多不同句
子中的词汇更加重要,该分数使用以下公式计算: 其中SF(t)是词汇t出现的句子频率,即t出现的句子数量,而#Sentences是文本中的句子 总数。
计算出词汇特征得分后, 就可以得到每个词汇的权重(twt):
twt = 1 / T— (3-6)
T + Norm + 上 Sentence
Case rri 1 rri
TRe lTRe l
事实上,有些不重要的术语可能会出现很多次,出现在多个句子中。将TFN°rm和Tsentence除 以TRel,以缓解为频繁出现或出现在许多句子中的词汇分配一个高值的情况。
3.2.2术语加权损失
将报告中每个单词的权重预先计算为{tw}二,其中N表示报告中的单词总数。通过将 它们合并到报告生成中常用的交叉熵损失中,产生如下的术语加权报告生成损失:
工II WJog F(切厶右-1,…,心)
EN
N tw
i =1 i
其中,P(t,|厶心,…,tj表示模型基于图像1和第-1个单词的信息对第i个单词的预测概 率。
3・3实验结果与分析
3.3.1实验数据
本章所用的数据集与第二章相同。数据集细节在 2.2.1节已给出。
本研究测试了 HRRA-TWNet 的性能,并将其与两个公共数据集上的多种先进图像字 幕和医疗报告生成方法进行了比较。
3・3・2 评价指标
本节选取 BLEU、ROUGE 与 CIDEr 三种评价指标,综合评价报告自动生成模型的性 能,指标意义如 2.2.2 节所述。
3.3.3模型对比
为了验证 HRRA-TWNet 的有效性,本节在两个公开的数据集上验证评估提出的模型 以及各模块的有效性,并将以下几个先进模型作为基线。
CNN-RNN 是经典图像自动描述模型,由 CNN 编码器与 RNN 解码器组成。其中, CNN用来提取图像特征,RNN用来生成文本序列。
Top-Down 是一个基于编码器-解码器的经典模型,使用一种自上而下的注意力机制, 将部分完成的描述输出作为上下文表示。自上而下的注意力机制用来训练有选择地处理 卷积神经网络地输出。
MRMA 提出一个基于注意力机制的多模态循环生成模型,该模型在语义特征与图像 特征之间添加了一个注意力机制以捕捉图像各区域与句子之间的关联性,并通过循环生 成的方式逐句生成报告的长段落。
R2Gen 模型使用添加的关系存储器记录之前生成过程产生中的信息,并引入一种新 的层标准化机制来将关系存储整合到 Transformer 中,改进了模型生成长文本报告的能 力。
表3-3展示了本章提出的HRRA-TWNet模型的实验结果和四个基线工作在6个自然
语言评价指标上的对比结果,其中所有的基线工作实验结果都是我们复现得到的。
表 3-3HRRA-TWNet 与其它模型的性能比较
Dataset Model BLEU -1 BLEU-2 BLEU-3 BLEU-4 ROUGE CIDEr
CNN-RNN 0.276 0.168 0.107 0.063 0.238 0.197
Top-Down 0.281 0.179 0.118 0.079 0.276 0.208
IU MRMA 0.417 0.253 0.172 0.120 0.305 0.314
X-RAY R2Gen 0.434 0.276 0.197 0.147 0.349 0.351
HRRA-
TWNet(ours) 0.457 0.292 0.203 0.156 0.361 0.375
CNN-RNN 0.215 0.132 0.062 0.029 0.197 0.106
Top-Down 0.241 0.154 0.109 0.083 0.309 0.114
MIMIC- MRMA 0.343 0.225 0.141 0.104 0.316 0.153
CXR R2Gen 0.341 0.208 0.136 0.094 0.257 0.142
HRRA- 0.349 0.216 0.139 0.107 0.331 0.187
可见,与多个先进的报告生成模型相比,本章提出的 HRRA-TWNet 在多个指标上均
取得了最好的结果。特别的, CIDEr 指标得到最明显的改善。其中,在 IU 数据集中
CIDEr从0.351增加到0.375,在MIMIC数据集中CIDEr从0.142增加到0.187。本章提出 的 HRRA-TWNet 通过对报告中的词汇进行重要性加权,能够使模型更多地关注区分不同 报告的关键核心词,从而提升模型生成报告的准确性。
图3-3展示了 HRRA-TWNet生成的报告样本。
影像 真实报告 生成报告
凸 The lungs arc clear of focal consolidation, pleural effusion or pneumothorax. The heart size is normal. The mediastinal contours arc normal. Multiple surgical clips project over the left breast, and old left rib fractures arc noted. No acute cardiopulmonary findings. The lungs are clear of focal consolidation. No pleural effusion or pneumothorax is seen. The heart size is normal. There is no pulmonary edema. No acute osseous abnormalities.
1 7、 The lungs are clear without focal consolidation. No pleural effusion or pneumothorax is seen. The cardiac and mediastinal silhouettes arc unremarkable. There is no pulmonary edema. Chronic changes at the distal right clavicle, right coracoclavicular interval arc not well assessed on this study. No focal infiltrate, pneumothorax or pleural effusion. No acute bony abnormality. The lungs are clear. There is no pulmonary edema. The cardio mediastinal silhouette is normal limits. There is no pleural effusion or pneumothorax. The heart size is within normal limits.
图3-3 HRRA-TWNet报告自动生成结果展示
从图 3-3 可以观察到, HRRA-TWNet 可以成功的诊断出“心脏大小正常”和“肺水 肿”,但生成的报告语句顺序与真实报告存在差异。本章所提出的HRRA-TWNet通过术 语加权机制指导模型关注报告中的关键核心词,可以生成更加连贯且准确的报告语句, 增强生成报告的可读性。
3・3・4 实验讨论
为了验证 HRRA-TWNet 模型各组件的有效性,本节设计了消融实验,详细信息如 下。
HRRANet:未使用术语加权的模型。
HRRA-TWNet: 所提出的模型。
消融实验结果如表 3-4所示。
表 3-4 HRRA-TWNet 消融实验结果
Dataset Model BLEU -1 BLEU-2 BLEU-3 BLEU-R ROUGE CIDEr
IU HRRANet 0.451 0.288 0.204 0.151 0.352 0.338
X-RAY HRRA-
TWNet(ours) 0.457 0.292 0.203 0.156 0.361 0.375
MIMIC- HRRANet
HRRA-
TWNet(ours) 0.346 0.212 0.144 0.103 0.323 0.164
CXR 0.349 0.216 0.139 0.107 0.331 0.187
消融实验显示,所提出的术语加权方法显著提高了诊断报告生成的准确性,本章提 出的HRRA-TWNet通过降低所有报告中常用词的权重显著改进了 CIDEr指标,其中,在 IU 数据集中 CIDEr 从 0.338 增加到 0.375,在 MIMIC 数据集中 CIDEr 从 0.164 增加到 0.187。 CIDEr 在评估过程中对不同语句进行权重赋值,代表核心语义的单词将被赋予更 高的权重,频繁出现的核心语义不相关的单词被赋予较低的权重,能够模拟生成文本与 真实报告之间核心语义的相似度。本章所提出模型性能的改进,尤其是 CIDEr 指标的改 进,反映了本研究提出的衡量词汇重要性的术语加权方案的有效性。
3.4本章小结
本章提出了基于残差注意力与术语加权的高分辨率网络,与现有的工作不同, HRRA-TWNet 通过对报告中词汇赋予不同权重,以区分不同词汇对报告生成影响的差 异,减弱诊断报告中大量经常出现的一般词汇对报告生成的影响,使模型关注关键区别 词 。 实 验 结 果 表 明, 术语加 权 方案有 效提 高了 诊断报 告 生 成 的 准确率。
4基于残差注意力与术语加权的指数惩罚高分辨率网络
(HRRA-TW-RPNet)
本章完整阐述基于残差注意力与术语加权的指数惩罚高分辨率网络(HRRA-TW- RPNet) o 首先,本研究为生成报告中词汇增加一个指数级惩罚项,然后,将其集成到影 像报告生成常用的交叉熵损失函数中,以减少生成报告中的重复词频繁出现的情况。
4.1问题引入
在自然图像领域中,图像描述任务通常只需要生成描述图像一句话的标题,而医学 诊断报告生成任务中需要生成段落式的文本,其中包含多个语句。这增加了报告生成的 难度,导致出现重复词甚至语句。因此,我们提出了一个重复性惩罚机制来约束生成报 告中出现的重复词。具体而言,通过对生成的报告单词增加一个指数级惩罚项,并将其 集成到报告生成的交叉熵损失中,来降低报告中重复语句的出现次数。本章的主要贡献 如下:
(1)本研究提出的 HRRA-TW-RPNet 通过添加的重复词惩罚机制降低诊断报告中重 复语句的出现,增强了模型生成长文本报告的能力。
(2)本研究进行了大量实验,以验证 HRRA-TW-RPNet 模型的有效性。实验结果表 明,HRRA-TW-RPNet性能优于目前先进的医学诊断报告自动生成模型。
4.2HRRA-TW-RPNet
本章完整的阐述基于残差注意力与术语加权的指数惩罚高分辨率网络。在视觉特征 提取阶段,本章采用第二章提出的 HRRANet 提取多层次视觉特征。在报告生成阶段,本 章采用第三章介绍的基于术语加权的 Transformer 解码器的改进版本,并提出一种词汇重 复性惩罚机制在报告生成阶段约束重复词的出现,通过判断词汇生成的次数对词汇生成 概率进行更新。下面介绍所提出的术语惩罚性方案。该方案包括术语重复性惩罚机制与 术语重复性损失两部分。
4.2.1重复性惩罚机制
报告生成过程中重复词生成次数越多,所生成报告的可读性越低,准确性越差。为 了解决这个问题,本研究提出对生成的重复词添加一个指数级惩罚机制。通过将单词预 测概率的对数值减去生成的三元组中的词汇频率成正比的指数值对单词生成概率进行更 新,更新公式如下:
pr =p -e-(3-nt) (4-1)
其中p;为单词t的重复惩罚生成概率,Pt为单词t生成的对数概率,n为三元组中单词t 的出现次数。
4.2.2术语重复惩罚损失
将报告中每个单词基于重复惩罚机制的生成概率表示为Pr。然后将其更新到报告生 成中常用的交叉熵损失中,产生如下的基于术语重复性惩罚机制的报告生成损失:
EN
tw - P
,— 2=1 1 r
LrG 1N
/ twi
1=1 1
其中twt报告中每个单词预先计算的权重,N表示报告中的单词总数,通过采用重复惩罚 机制使生成报告中词汇具有多样性,从而解决重复词出现的问题。
4.3实验结果与分析
4.3.1实验数据
本章使用的数据集与第二章相同。数据集细节在2.2.1节已给出。
本章测试了 HRRA-TW-RPNet模型的性能,并将其与两个公共数据集上的多种先进图 像字幕和医疗报告生成方法进行了比较。
4.3.2评价指标
本节选取 BLEU、ROUGE 与 CIDEr 三种评价指标,综合评价模型的性能,指标意义
4.3.3模型对比
为了验证本章提出的 HRRA-TW-RPNet 的有效性,本节在两个公开的数据集上验证 评估所提出的模型以及各模块的有效性,并将以下几个先进模型作为基线。
CNN-RNN 是经典图像自动描述模型,由 CNN 编码器与 RNN 解码器组成。其中, CNN 用来提取图像特征, RNN 用来生成文本序列。
Top-Down 是一个基于编码器-解码器的经典模型,使用一种自上而下的注意力机制, 将部分完成的描述输出作为上下文表示。自上而下的注意力机制用来训练有选择地处理 卷积神经网络地输出。
MRMA 提出一个基于注意力机制的多模态循环生成模型,该模型在语义特征与图像 特征之间添加了一个注意力机制以捕捉图像各区域与句子之间的关联性,并通过循环生 成的方式逐句生成报告的长段落。
R2Gen 模型使用添加的关系存储器记录之前生成过程产生中的信息,并引入一种新 的层标准化机制来将关系存储整合到 Transformer 中,改进了模型生成长文本报告的能 力。
表4-1展示了 HRRA-TW-RPNet模型的实验结果和四个基线工作在6个自然语言评价 指标上的对比结果,其中所有的基线工作实验结果都是我们复现得到的。
表4-1 HRRA-TW-RPNet与其它模型的性能比较
Dataset Model BLEU -1 BLEU-2 BLEU-3 BLEU-R ROUGE CIDEr
CNN-RNN 0.276 0.168 0.107 0.063 0.238 0.197
Top-Down 0.281 0.179 0.118 0.079 0.276 0.208
IU MRMA 0.417 0.253 0.172 0.120 0.305 0.314
X-RAY R2Gen 0.434 0.276 0.197 0.147 0.349 0.351
HRRA-TW-
RPNet(ours) 0.459 0.289 0.207 0.157 0.361 0.377
CNN-RNN 0.215 0.132 0.062 0.029 0.197 0.106
Top-Down 0.241 0.154 0.109 0.083 0.309 0.114
MIMIC- MRMA 0.343 0.225 0.141 0.104 0.316 0.153
CXR R2Gen 0.341 0.208 0.136 0.094 0.257 0.142
HRRA-TW-
RPNet(ours) 0.349 0.214 0.141 0.109 0.334 0.186
可见,与多个先进的报告生成模型相比,我们的 HRRA-TW-RPNet 在多个指标上均 取得了最好的结果,远超出所列出的基线工作。
图4-1展示了 HRRA-TW-RPNet模型生成的报告样本。
真实报告 生成报吿
1 11 Heart size, mediastinal and hilar contours are normal. Lungs arc clear, with resolution of a previously reported left lower lobe abnormality in. There arc no pleural effusions. Healed right rib fractures arc noted. The heart silhouette is normal in size. The lungs arc clear. Lungs demonstrates right lower lobe airspace opacities without pleural cffiision or pneumothorax. The cardiac and mediastinal silhouettes arc stable.
Since the most recent prior radiograph, there has been development of a hazy opacity in the left lower lung concerning for left lower lobe pneumonia. The right lung is clear. There is no pneumothorax or pleural effusion. A right P1CC line catheter is seen in the upper SVC. Cardiomcdiastinal silhouette is normal. Osseous structures arc unremarkable. There is small bilateral pleural effusions and bibasilar opacities consistent with pulmonary edema. The lungs arc clear. There is no pleural effusion or pneumothorax. The cardiac and mediastinal silhouctles arc stable. No acute osseous abnormalities identified.
图4-1 HRRA-TW-RPNet报告自动生成结果展示
从图4-1可以观察到,HRRA-TW-RPNet生成的诊断报告大致与真实描述匹配,对于 主要部位以及疾病的描述基本正确。但是两者的句子顺序存在差异,且模型生成的诊断 语句在涉及到位置的词语上存在一些偏差,例如“左肺清晰”在生成的报告中为“肺部 清晰”。本章所提出的HRRA-TW-RPNet可以生成连贯且准确的报告语句,对现有的模型 算法的进行了补充改进,也存在一些错误需要未来工作进一步完善。
4.3.4实验讨论
为了验证HRRA-TW-RPNet模型各组件的有效性,本节设计了消融实验,详细信息 如下。
HRRA-TWNet:未使用重复惩罚损失的模型。
HRRA-TW-RPNet:所提出的模型。
消融实验结果如下表。
表4-2 HRRA-TW-RPNet消融实验结果
Dataset Model BLEU-1 BLEU-2 BLEU-3 BLEU-R ROUGE CIDEr
IU
X-RAY HRRA-TWNet 0.457 0.292 0.203 0.156 0.361 0.375
HRRA-TW-
HRRA-TW- 0.459 0.289 0.207 0.157 0.361 0.377
RPNet(ours)
MIMIC-
CXR HRRA-TWNet 0.349 0.216 0.139 0.107 0.331 0.187
HRRA-TW-
HRRA-TW- 0.349 0.214 0.141 0.109 0.334 0.186
RPNet(ours)
消融实验显示,所提出的重复惩罚机制有效提高了诊断报告生成的准确性。
4.4本章小结
本章提出了用于医学报告自动生成的HRRA-TW-RPNet模型。与现有的工作不同, HRRA-TW-RPNet通过集成的重复性惩罚项降低所生成的诊断报告中出现重复词的情况, 减小重复语句对报告生成能力的影响。实验结果表明,本章提出的HRRA-TW-RPNet方 法有效提高了医学报告生成的准确性。
5总结与展望
本章对本论文的所有工作进行总结,并且指出未来的工作展望。
5.1总结
近年来,深度学习在医学影像处理中取得重大突破,但因深度学习具有不可解释 性,阻碍了其在智能医疗领域的进一步发展。研究者开始借助自然语言处理方法将医学 诊断报告的文本信息融入到影像处理过程中,运用多模态医学数据为医学影像生成诊断 报告,给出可理解的诊断依据,增强医学影像数据处理的临床可解释性。随着深度学习 技术在医学图像领域与自然语言处理领域的全面发展,越来越多的研究者开始研究基于 深度学习的医学报告生成工作。然而,医学影像彼此高度相似导致模型难以有效提取视 觉特征,影像报告词汇的长尾分布导致平等对待每个词汇严重降低报告生成的性能,报 告的长文本特性使自动生成的报告中出现重复的语句。目前的诊断报告自动生成算法难 以满足临床医学报告自动生成任务的准确性与可读性要求,难以为医学影像诊断模型提 供可以理解的临床依据。因此,提出能够实现高准确性与高可读性的影像报告自动生成 算法为疾病自动检测提供诊断依据具有十分重要的研究意义。结合当前影像报告的发展 以及所面临的问题,本研究的主要工作如下:
(1)提出了一种改进的基于残差注意力块的高分辨率网络新架构(HRRANet),有 效解决了影像报告中细粒度视觉特征难以提取的问题。该架构包括添加的跳跃连接以及 残差注意力模块,用来检测医学影像中的多层次视觉特征。添加的跳跃连接可以保留影 像的低层特征,残差注意模块被用来提取影像中的局部与全局特征。然后将提取到的多 层次特征投入到解码器中用于诊断报告的生成。
(2)提出了一种术语加权方法(HRRA-TWNet)解决诊断报告中词汇的长尾问题。 通过对报告中词汇赋予不同权重来反映不同单词对报告生成重要性的区别,以保证模型 关注关键的区别词,减小大量出现的不太重要的词对报告生成的影响。首先,通过对诊 断报告中词汇进行文本预处理与特征提取,然后计算每个单词的权重。最后将词汇权重 合并到影像报告生成常用的交叉熵损失中用于指导模型区分词汇的不同重要性。
(3)提出了一种重复性惩罚机制(HRRA-TW-RPNet)解决诊断报告生成语句重复 的问题。通过应用重复词指数级惩罚,减少生成的诊断报告中重复语句的出现。当重复 词出现时,即对出现的高频重复词施加一个指数级的惩罚,以指导模型生成具有多样词 的诊断报告,提高生成报告的连贯性和可读性。
5.2工作展望
论文的研究主要针对于如何实现医学影像视觉特征有效提取,生成过程对诊断报告 词汇赋予不同权重以关注关键区别词和解决报告生成中出现重复词汇的问题,所提出的 一系列改进方法改善了现有模型的性能,但仍然存在一些问题,距离真正的临床应用还 有较大的改进空间。将来可以从以下几个方面进行改进:
(1) 目前现有的大型医学报告公开数据集仅有胸片体检影像报告数据集,而绝大多 数影像报告的描述都为对正常器官的描述,这导致生成的影像报告仍然存在大量无意义 的正常发现,而缺少对异常的观测。因此,为了进一步提高模型对异常区域的描述能 力,可尝试对正常影像和异常影像分类处理,而更关注于对异常报告的生成,从而提升 诊断报告生成的准确性。
(2) 由于当前医学报告自动生成的工作使用的为自然图像领域的自然语言处理的相 关评估指标,尚未有权威的特别为医学报告自动生成工作设计的评估指标,为了更有效 的评估影像报告的生成结果,为医学报告自动生成任务设计一个可信而有效的评估指标 以进一步规范医疗报告生成的准确性、规范性,从而更好的辅助进行疾病自动检测,是 一个亟待解决的问题。
(3) 近年来,在GPU多卡算力和大规模的无标注数据的支持下,多模态预训练模型 成为人工智能的最新技术高地。通过在海量数据上进行预训练,学习图像和文本两种不 同模态之间的语义映射关系[47-50],可以有效提高模型的性能。未来可以尝试医学领域的 多模态预训练工作,并将疾病检测及影像报告自动生成作为其下游任务,从而提高模型 的特征表达能力。
参考文献
[1]Kaufman L, Shosa D, Crooks L, et al. Technology needs in medical imaging[J]. IEEE Transactions on Medical Imaging, 1982, 1(1): 11-16.
[2]Suk H I, Lee S W, Shen D. Hierarchical feature representation and multimodal fusion with deep learning for AD/MCI diagnosis[J]. NeuroImage, 2014, 101:569-582.
[3]Xu T, Zhang H, Huang X, et al. Multimodal deep learning for cervical dysplasia diagnosis[C]. //Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2016: 115-123.
[4]陈园琼,邹北骥,张美华,等.医学影像处理的深度学习可解释性研究进展[J].浙 江大学学报,2021, 48(1): 18-29.
[5]Paschali M, Naeem M F, Simson W, et al. Deep learning under the microscope: improving the interpretability of medical imaging neural networks[J]. arXiv preprint arXiv:1904.03127, 2019.
[6]Lee H, Yune S, Mansouri M, et al. An explainable deep-learning algorithm for the detection of acute intracranial haemorrhage from small datasets[J]. Nature Biomedical Engineering, 2019, 3(3): 173-182.
[7]Liao W M, Zou B J, Zhao R C, et al. Clinical interpretable deep learning model for glaucoma diagnosis[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 24(5): 1405-1412.
[8]Garcia-Peraza-Herrera L C, Everson M, Li W, et al. Interpretable fully convolutional classification of intrapapillary capillary loops for real-time detection of early squamous neoplasia[J]. arXiv preprint arXiv:1805.00632, 2018.
[9]Cruz-Roa A A, Arevalo Ovalle J E, Madabhushi A, et al. A deep learning architecture for image representation, visual interpretability and automated basal-cell carcinoma cancer detection[C]//Proceddings of the Medical Image Computing and Computer-Assisted Intervention, 2013: 22-26.
[10]Biffi C, Oktay O, Tarroni G, et al. Learning interpretable anatomical features through deep generative models: Application to cardiac remodeling[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2018: 464-471.
[11]Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2921-2929.
[12]Zhang Z, Chen P, Sapkota M, et al. Tandemnet: Distilling knowledge from medical images using diagnostic reports as optional semantic references[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2017: 320-328.
[13]Wang X, Peng Y, Lu L, et al. Tienet: Text-image embedding network for common thorax disease classification and reporting in chest x-rays[C]//Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition. 2018: 9049-9058.
[14]Shen S, Han S X, Aberle D R, et al. An interpretable deep hierarchical semantic convolutional neural network for lung nodule malignancy classification[J]. Expert Systems with Applications, 2019, 128: 84-95.
[15]Kim S T, Lee H, Kim H G, et al. ICADx: interpretable computer aided diagnosis of breast masses[C]//Proceedings of the Medical Imaging 2018: Computer-Aided Diagnosis. 2018, 10575: 450-459.
[16]Zhang Z, Xie Y, Xing F, et al. Mdnet: A semantically and visually interpretable medical image diagnosis network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6428-6436.
[17]De Fauw J, Ledsam J R, Romera-Paredes B, et al. Clinically applicable deep learning for diagnosis and referral in retinal disease[J]. Nature Medicine, 2018, 24(9): 1342-1350.
[18]Li X, Dvornek N C, Zhou Y, et al. Efficient interpretation of deep learning models using graph structure and cooperative game theory: application to asd biomarker discovery[C]// Proceedings of the IPMI. 2019: 718-730.
[19]Shin H C, Roberts K, Lu L, et al. Learning to read chest x-rays: Recurrent neural cascade model for automated image annotation[C]//Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2016: 2497-2506.
[20]Jing B, Xie P, Xing E. On the automatic generation of medical imaging reports[J]. arXiv preprint arXiv:1711.08195, 2017.
[21]Han Z, Wei B, Leung S, et al. Towards automatic report generation in spine radiology using weakly supervised framework[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2018: 185-193.
[22]Yin C, Qian B, Wei J, et al. Automatic generation of medical imaging diagnostic report with hierarchical recurrent neural network[C]//Proceedings of the IEEE International Conference on Data Mining (ICDM). 2019: 728-737.
[23]Yuan J, Liao H, Luo R, et al. Automatic radiology report generation based on multi-view image fusion and medical concept enrichment[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2019: 721-729.
[24]Harzig P, Chen Y Y, Chen F, et al. Addressing data bias problems for chest x-ray image report generation[J]. arXiv preprint arXiv:1908.02123, 2019.
[25]Gale W, Oakden-Rayner L, Carneiro G, et al. Producing radiologist-quality reports for interpretable deep learning[C]//Proceedings of the International Symposium on Biomedical Imaging. 2019: 1275-1279.
[26]Gu M, Huang X, Fang Y. Automatic generation of pulmonary radiology reports with semantic tags[C]//Proceedings of the IEEE International Conference on Advanced Infocomm Technology. 2019: 162-167.
[27]Xiong Y, Du B, Yan P. Reinforced transformer for medical image captioning[C]//Proceeding of the Machine Learning in Medical Imaging, 2019: 673-680.
[28]Liu G, Hsu T M H, McDermott M, et al. Clinically accurate chest x-ray report generation[C]//Proceeding of the Machine Learning for Healthcare Conference.2019: 249269.
[29]Zhang Y, Wang X, Xu Z, et al. When radiology report generation meets knowledge graph[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07):
12910-12917.
[30]Li C Y, Liang X, Hu Z, et al. Knowledge-driven encode, retrieve, paraphrase for medical image report generation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 6666-6673.
[31]Pavlopoulos J, Kougia V, Androutsopoulos I. A survey on biomedical image captioning[C]//Proceedings of the Second Workshop on Shortcomings in Vision and Language. 2019: 26-36.
[32]Yang Y, Yu J, Zhang J, et al. Joint embedding of deep visual and semantic features for medical image report generation[J]. IEEE Transactions on Multimedia, 2021, 25: 167-178.
[33]Kim J H, Choi J H, Cheon M, et al. Ram: Residual attention module for single image super- resolution[J]. arXiv preprint arXiv:1811.12043, 2018, 2(1): 2.
[34]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
[35]Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4700-4708.
[36]Chen Z, Song Y, Chang T H, et al. Generating radiology reports via memory-driven transformer[J]. arXiv preprint arXiv:2010.16056, 2020.
[37]Demner-Fushman D, Kohli M D, Rosenman M B, et al. Preparing a collection of radiology examinations for distribution and retrieval[J]. Journal of the American Medical Informatics Association, 2016, 23(2): 304-310.
[38]Johnson A E W, Pollard T J, Greenbaum N R, et al. MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs[J]. arXiv preprint arXiv:1901.07042, 2019.
[39]Pavlopoulos J, Kougia V, Androutsopoulos I, et al. Diagnostic captioning: a survey[J]. Knowledge and Information Systems, 2022, 64(7): 1691-1722.
[40]Papineni K, Roukos S, Ward T, et al. Bleu: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002: 311-318.
[41]LIN C Y. ROUGE-Recall-Oriented Understudy for Gisting Evaluation-Version 1.5. 5[J].
http://www. isi. eduQ-cyl/ROUGE/, 2005.
[42]Vedantam R, Lawrence Zitnick C, Parikh D. Cider: Consensus-based image description evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 4566-4575.
[43]Mao Y, Zhou C, Wang X, et al. Show and Tell More: Topic-Oriented Multi-Sentence Image Captioning[C]//Proceedings of the International Joint Conferences on Artificial Intelligence. 2018: 4258-4264.
[44]Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6077-6086.
[45]Xue Y, Xu T, Rodney Long L, et al. Multimodal recurrent model with attention for automated radiology report generation[C]//Proceedings of the Medical Image Computing and Computer-Assisted Intervention, 2018: 457-466.
[46]Machado D, Barbosa T, Pais S, et al. Universal mobile information retrieval[C]//Proceddings of the Universal Access in Human-Computer Interaction. 2009: 345-354.
[47]Patel C, Kopparapu S K. A Multi-criteria Text Selection Approach for Building a Speech Corpus[C]//Proceedings of the Text, Speech, and Dialogue. 2015: 15-22.
[48]Thurner P J, Bonse U, Wyss P, et al. Functional micro-imaging of soft and hard tissue using synchrotron light[C]. //Proceedings of the Developments in X-Ray tomography IV. 2004, 5535:112-128.
[49]Hervella A S, Rouco J, Novo J, et al. Retinal microaneurysms detection using adversarial pre-training with unlabeled multimodal images[J]. Information Fusion, 2022, 79: 146-161.
[50]Kapoor V, Tak S S. A multicriteria clustering approach to facility layout generation[J]. International Journal of Multicriteria Decision Making, 2015, 5(1-2):59-86.