1. 网站地图
  2. 设为首页
  3. 关于我们


基于深度学习的医学影像与诊断报告的跨 模态检索研究

发布时间:2023-09-20 14:23
1 绪论
1.1研究背景及意义
伴随着医疗体系的不断完善和医学信息化的飞速发展,医院系统里堆积了大 量的医学数据。这些数据以图片、文本等多种模态类型被记录保存下来,例如胸 部 X 线影像和诊断报告。放射科医生每天都需要依据这些医学数据对患者进行 诊治,由于医患之间存在数量不对等、分布不均衡的现象,大部分放射科医生都 面临着高强度的工作压力。如何利用这些胸部影像和诊断报告来实现医学影像和 诊断报告之间的相互检索,提高医生诊断效率的问题,从而缓解放射科医生的工 作强度,成为了国内外医学跨媒体智能研究的热门课题。
 
图 1-1 自然界下的跨模态检索示意图
自然场景下,单模态检索是指以某一种模态样本检索相同模态下具有相同语 义的样本,如,利用文字检索与其语义相似的文字,利用图片检索与其相似的图 片。跨模态检是指使用某一种模态样本检索另一种模态中与其语义相同的样本, 如,利用文字检索图片、利用图片检索对应的文字等。跨模态检索现阶段主流做 法是将不同模态数据映射到公共空间中进行关联匹配,依据测量不同样本在此空 间中的相似度判别相同语义样本在不同模态下的一致性,从而实现跨模态检索。 如图 1-1 所示,由于自然场景下的单模态检索局限在只能检索相同模态样本,跨 模态检索则是能很好的解决这一问题,如,用户对于自然场景下查询关键词:“彩
1
 
虹”,检索结果显示出了与彩虹相关的视频、文本、图片和音频等不同模态下的 信息供用户选择,从而进一步提升了检索的准确性。医学场景下的跨模态检索与 自然场景下的跨模态检索有很大的不同,如胸部 X 线影像清晰度查、重叠影严 重、整体结构相似、局部差异细微;诊断报告呈现整体结构相似、主题语义差异 小、语义表征学习难度大,故面向自然领域的跨模态检索不适用于医学影像与诊 断报告间的跨模态检索。因此,研究胸部 X 线影像和诊断报告间的跨模态检索 是十分有必要的。
由于全球医疗体系发展不够均衡,部分国家和地区缺乏大量的放射科医生, 这就导致了病人看病难,部分医生工作任务多、压力大、效率低等问题。近年来, 各个国家医疗体系在面临 COVID-19 疫情冲击下,这些问题尤为显著。因此,如 果有一种辅助诊断方法来帮助医生对患者进行诊断,这将极大的缓解放射科医生 的压力、减轻放射科医生的工作量,从而进一步提升放射科医生的工作效率,胸 部 X 线影像和诊断报告间的跨模态检索为解决这一问题提供有效的解决方案。 如图 1-2 所示,医生在进行诊断时,不仅希望可以查到与之相关的相同模态下的 数据,还希望查询到与其语义相关的不同模态下的数据,对这些医疗信息的处理 需求正在从单一的检索方式逐步演变为多种模态之间的相互检索。
 
图2-2胸部X线影像和诊断报告间的跨模态检索示意图
胸部 X 线影像和诊断报告的跨模态检索是指通过胸部 X 线影像(或诊断报
告)检索对应的诊断报告(或胸部X线影像)。如图1-3所示,胸部X线影像和
诊断报告跨模态检索做法的主要是利用影像和文本编码器学习不同模态的表征,
2
 
并将其映射到公共空间进行特征交互对齐,从而实现胸部X线影像和诊断报告间 的跨模态检索。研究胸部X线影像和诊断报告的跨模态检索方法及关键技术,对 提高医生诊断效率、减轻工作负担、降低误诊率具有重要意义。相较于单模态检 索,跨模态检索省去了分别对同一模态间和不同模态内关系建模,具有较强的灵 活性、实用性和广泛性,是机器学习的重要研究内容,对于工学两界具有十分重
要的价值和意义。
 
图 3-3 医学跨模态检索示意图
1.2研究现状及存在问题
跨模态检索研究面临的主要难题是:不同模态下的数据呈现底层特征异构, 高层语义相关的特点[1]。跨模态检索的实质是将不同模态不同维度的数据进行关 联匹配,如上图所示,目前主流方法是学习一个映射,将多模态数据映射到公共 表征空间,在此空间中对不同样本进行相似度打分计算,依据计算结果来判别相 同语义样本在不同模态下的一致性,从而完成跨模态检索。如何捕获底层表征、 挖掘出深层的语义相关性是跨模态检索面临的挑战。如今,医学领域的跨模态检 索从自然场景下跨模态检索汲取经验,医学跨模态检索主流思想是利用注意力机 制学习挖掘胸部影像和诊断报告模态内部表征,将影像和报告中包含的全局信息 映射到公共空间中,在此空间中构建不同模态下的信息关联。如,赵等[2]根据提 前标注的肺结节区域进行不同尺寸的切割,依据切割区域进行肺结节影像和报告 文本的表征提取,将提取到的表征一起映射到公共的汉明空间里,基于标签信息 构建相似度矩阵约束哈希码的学习,从而实现模态间信息的交互。 Zhang 等[3]在 模型设计阶段通过引入注意力机制,利用局部重复注意力去捕获对应模态下的全 局表征信息,递归的从影像的粗粒度到细粒度完成不同级别的表征学习,使模型
3
学习到影像中更具鉴别力的表征信息。Zhang等[4]提出了基于类别监督的胸片和 放射报告的跨模态哈希检索方法。首先对模态中每个类别的哈希码进行学习,将 类别哈希码作为监督信息来引导影像和文本模态中的哈希码学习,利用设计的联 合哈希网络将两个模态中的表征一起映射到汉明空间中进行相似度度量学习。目 前医学领域中存在的跨模态检索方法只聚焦于两个模态中的全局信息交互对齐, 缺乏对局部细粒度语义的关注,如何利用好模态间局部语义信息,更好的构建模 态间实例语义信息关联对齐,是实现医学领域中跨模态检索的关键。
根据模型和算法的搭建和设计过程中,有无使用标签信息作为监督信息,现 阶段的跨模态检索主流方法有三种:有监督跨模态检索方法[5, 6]、半监督跨模态 检索方法[7, 8]、无监督跨模态检索[9, 10]方法。有监督场景下的跨模态检索方法通常 将标签中包含的语义信息以不同的方式嵌入到哈希码的编码学习中,利用标签信 息作为监督信息去约束不同模态下的相同实例在公共空间中的表征学习,使模型 学习到具有鉴别力的表征信息,如,Lin等[11]提出了语义保留哈希(SePH), 为了保持原始数据中的语义与生成的哈希码语义的相通性,通过最小化语义标签 和哈希码分布之间的KL散度差异约束哈希函数对实例生成的哈希码,从而实现 不同模态下相同实例间的相似度计算。Li等[12]基于对抗学习的框架,搭建了一 个半监督对抗哈希网络(SSAH),利用标签信息对不同模态之间的语义进行关 联建模。Jiang等[13]基于深度学习的方法,提出了一个端到端哈希学习框架一一 深度跨模态哈希(DCMH),同时进行深度特征和哈希码的学习。但是这些现有 的方法都忽视了小粒度级影像包含的语义信息,导致最终的检索性能具有一定的 局限性。由于监督学习对数据对应的标签依赖程度非常大,但实际生活中给目标 对象进行标签注释需要花费大量的人力物力财力,且不是所有数据都能被标签标 注,故而有监督检索的方法具有一定的局限性。
无监督跨模态检索主要是在不利用标签信息的情况下,挖掘模态内部不同层 次的语义信息,利用挖掘到语义关联信息来作为监督信息,从而进一步构建不同 模态间相同实例语义关联。现有的无监督跨模态哈希方法主要分为基于图嵌入和 矩阵分解两种跨模态哈希检索。Su等[14]提出了深度联合语义重构哈希(DJSRH), 从不同模态下的原始邻域信息中捕获对应实例签字的语义信息,重构了联合语 义关系的二进码。Yu等[15]基于图模型提出了深度图领域一致性网络(DGCPN),
4
挖掘原始数据和其相邻节点间的关联信息,构建相应的图网络结构,实现不同模 态间的信息交互。Ji等[16]基于模态独立特征图推理,提出了 HMGR检索方法, 模型学习依据学习到的局部表征去生成上下文的全局表征,从而进一步发掘实例 语义间的关联,引入一个联合异构记忆网络来实现视觉和文本实例级信息关联匹 配,从而减轻不同模态之间的异构问题。虽然上述跨模态检索方法设计了模态间 的语义信息交互关联方式,但由于无监督方法的特殊性,在进行表征映射时仍会 存在信息丢失,缺乏标签信息的约束,语义间的结构信息在映射过程中没有得以 保存,因此,无监督跨模态检索性能具有一定的局限性。
由于有监督跨模态中标注成本高,无监督跨模态检索由于缺乏监督信息,两 种方式在进行跨模态检索都收到了一定程度上的限制,因此,半监督跨模态检索 受到了国内外的重点关注。它可以利用少部分标签学习模态间的信息关联,提升 模型的检索性能。如,Xuan等[17]提出了一种图约束的半监督对抗跨模态检索方 法(SS-ACMR),通过对无标签样本建立图作为约束条件学习公共子空间表示。 Zhang等[18]提出了一种基于生成对抗网络的半监督跨模态哈希算法(SCH- GAN),从无标签数据中选取一种模态的空白样例,当给出另一种模态的样例进 行查询时,使判别模型对所选样例和查询的真正样例进行区分。判断和生成模型 间进行极大极小博弈,使生成模型能够提高判别模型的哈希性能。上述模型都只 考虑了全局信息间的实例语义关联,缺乏对局部语义信息的挖掘和利用,忽视了 不同模态下相同局部实例间的细粒度语义相似性,且这种方法只用于了自然场景 下的跨模态检索,由于医学报告的特殊性,如:类间差异小,类内差异大,全局 表征相似等问题,因此,这些方法不适用与医学场景下影像和报告间的跨模态检 索任务。
目前,大部分的跨模态检索任务都是针对自然领域中的图片、文本和音频等 模态信息,现有的这些方法依赖模态间的实例信息关联建模来实现跨模态检索, 只聚焦于全局信息的学习,在进行模态间相同实例的关联建模时忽视了细粒度语 义信息。但是医学影像与自然场景下的图像有很大的不同,影像与影像之间具有 较高的视觉一致性,影像和报告间存在这高层语义相关底层数据异构的特点,故 这些检索方法并不完全适用于医学跨模态检索。因此,如何更好的挖掘深层语义 信息,构建模态间的信息关联,是实现医学影像和诊断报告跨模态检索问题的关
5
键,也是国内外跨媒体检索研究的热门课题。
跨模态检索在国内的研究现状:由于跨模态检索比传统的单模态检索效率更 高、检索速度更快、检索结果精准等优点,国内外大量的科研机构和学者对此进 行了深入的研究,跨模态检索成为了科研人员的一个热门研究课题。例如国内北 京大学彭新宇老师团队在论文[19]中提出了多尺度相关序列跨模态哈希学习 (MCSCH),利用尺度信息增强了哈希码的多样性,减少了特定特征在极端情 况下产生的误差,利用多尺度相关挖掘策略,挖掘不同模态和尺度特征之间的相 关性。电子科技大学徐行老师团队在论文[20]提出了 MASLN,通过在跨模态重构 过程中以类嵌入为边信息,重构模态内部数据来最小化模态间的分布差异。利用 对抗性学习去学习语义表征,使学习到的公共表征可以区分不同模态间的相同语 义,从而缩小不同模态间的异质鸿沟。清华大学丁贵广老师团队在论文[21]中提出 了一种用于跨模态图像文本检索的迭代匹配方法IMRAM,用迭代的方法渐进式 地来处理语义的复杂性。循环注意力记忆模块(RAM),结合了跨模态注意力单 元和一个记忆蒸馏单元来细化图像和文本之间的对应关系,逐步探索图文间的细 粒度对应关系。南京大学李武军老师团队在论文[12]中提出了深度跨模态哈希 (DCMH)可以同时学习深度特征和哈希函数。中国人民大学卢志武老师团队在 论文[22 ]中提出的协同式双塔视觉语言预训练模型(COTS),通过加强模态间的 交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之 外,通过遮蔽视觉语言建模在token级别和KL散度对齐完成任务级别的跨模态 交互。天津大学冀中老师团队在论文[16]中提出的SMAN有监督跨模态检索方法, 利用堆叠的多模态注意机制挖掘出句子中有语义意义的视觉区域或单词,根据图 像和文本之间的细粒度相互依赖关系来提升不同模态间相似度测量精确度,解决 了跨模态检索任务中全局表征对齐无法实现精确定位和局部表征对齐计算量大 的问题。
跨模态检索在国外的研究现状:在国外也有大量的研究团队和科研机构从事 在该领域的研究和发展,如,康奈尔大学、多伦多大学、南洋理工大学、哥伦比 亚大学、莱斯大学、微软研究院等。代表性工作如:Rasiwasia老师的团队在论文 ㈢]中利用典型相关分析(CCA)最大化不同模态表征的相关性,将不同模态特征 投影到共同表示空间,在公共空间最大化匹配的图像文本对相关性。 Andrew 老
6
师的团队在论文[24]中提出的深度典型相关分析(DCCA)的方法,以深度学习的 方法将CCA思想实现出来,利用非线性映射来提升模型的学习能力,挖掘出更 多的模态信息。Google Brain Toronto公司Kiros老师的团队在论文[25]中提出了基 于排序的方法VSE++。将模态中的信息以三元组的形式输入模型中,利用排序 损失使得公共空间中相关样本之间的距离越来越近,无关的样本距离越来越远。 Gu老师的团队在论文[26]中利用对抗学习的思想提出了 GXN模型,搭建了生成 对抗网络去学习不同模态的公共表征,为跨模态检索提供了新的思路。 He 老师 的团队在论文[27]中提出了图文匹配的堆叠交叉关注(SCAN),利用注意力机制 分别学习基于图像的文本表征和基于文本的图像表征,将局部关联整合到全局相 似度计算之中。
存在的问题:虽然现阶段医学影像和诊断报告之间的跨模态检索取得了一定 的进展,但是仍存在以下一些问题需要进一步的深入研究:
(1)医学数据集不规范、局限性的问题。由于国内外医院与患者之间隐私 保密协议且不能提供足够标准医学数据,每个医生书写描述病历的习惯不同,已 有的医学数据集人工标注成本高等原因,现有的医学数据集无法提供大量、精准、 完善的医学数据集,从而进一步导致训练模型性能受到一定的阻碍,如何获取并 建立一个标准的医学数据集成为有待解决的问题。
(2)不同模态之间如何提取到更具代表力的表征的问题。现有的跨模态检 索方法捕获每个模态下数据的表征时,大都依据自然场景下的特征学习方法来捕 获每个模态下的表征,由于医学数据具有一定的特殊性,医学病例数据间视觉上 存在高度相似性,不同病例区域间视觉差异小,诊断报告间在语义上存在着高度 相似性,从而导致每个模态中学习到的表征鉴别力不强,因此,如何学习到各模 态内部具鉴别力的表征是一个胸部X线影像和诊断报告间的主要挑战之一。
(3)胸部 X 线影像和诊断报告间多层次、多尺度的语义交互对齐的问题。 现有的跨模态检索方法中,大部分模型在实现不同模态下相同语义实例的特征对 齐过程中,都是通过全局之间或局部特征之间的特征对齐来进行不同模态间的信 息交互,将特征映射到一个公共空间来进行相似度度量。但病例间是存在着一定 的信息关联,同种病例之间具有高度的语义相似性,但存在着较大的视觉差异, 诊断报告间文档格式大体相同,缺乏影像和报告之间多层次、多尺度的语义信息
7
交互,现有跨模态检索方法会遗漏掉一些未知的语义信息,不能够很好的保留语 义结构信息,未能充分利用模态间不同实例语义的语义关联来进行跨模态检索。
1.3研究目标及主要内容
研究目标:本研究旨在学习挖掘大规模医学数据中胸部 X 线影像和诊断报 告模态内更具有鉴别力的表征信息,对不同模态间相同语义信息的表征进行关联 匹配,最终以较高的检索效率和精度完成胸部 X 线影像和对应诊断报告之间的 跨模态检索的目的。
研究内容:
(1)胸部 X 线影像和诊断报告间的双塔跨模态检索方法
针对胸部 X 线影像和诊断报告模态内部具有鉴别力的细粒度语义表征难以 学习的情况,以及不同模态间存在语义鸿沟和异构鸿沟的问题,本文基于对比学 习的框架,提出了胸部X线影像和诊断报告间的双塔跨模态检索(CDTCR)方 法。为了解决胸部 X 线影像和诊断报告表征在进行特征提取过程中,模型难以 学习到具有鉴别力的语义表征的问题,该算法利用残差网络搭建组成的影像编码 器来捕获胸部X线影像不同尺度下的表征,利用Transformer结构构成的BERT 模型挖掘诊断报告中不同尺度的表征,进而使编码器对不同模态中的表征学习能 力得以提升,使模型能够挖掘具有更加详细丰富的语义信息。其次,该算法设计 了影像和报告两个模态间不同尺度下不同粒度的语义信息交互策略,在不同级别 层面分别实现影像和报告表征的映射,引导不同模态间语义的关联交互,很好的 弥合了医学影像和报告模态间存在的语义鸿沟和异构鸿沟问题。
(2)交叉注意力类监督的胸部影像和报告跨模态检索方法
针对胸部 X 线影像和诊断报告中存在的多种病例的情况,同一份影像报告 会属于多种语义类别,模型难以学习到复杂语义关系的问题,本文基于交叉注意 力和类标签,提出了交叉注意力类监督的胸部影像和报告跨模态检索(3CRCR) 方法。为了更好的捕获模态内部的不同级别的细粒度语义表征,该算法设计了由 Vision Transformer 和 BERT 为主干的影像和文本编码器,挖掘影像和报告对应模 态内不同级别的细粒度语义信息。为了构建影像和报告模态间的语义关联结构, 弥合不同粒度级语义鸿沟,利用交叉注意力机制学习局部细粒度语义关联,挖掘
8
不同模态多层次的语义信息,使模型聚焦学习病理对应的局部区域表征;利用多 类标签作为监督信息,约束模态间不同粒度级的信息交互;设计全局表征实例语 义对齐、交叉注意力局部细粒度语义对齐和多粒度混合交互对齐三个级别的对齐 策略,将影像和报告两种模态不同粒度语义关联匹配,提升模型对不同模态语义 的学习能力和判别能力,加深模态间相同病例样本在公共表征空间中的相关性, 削弱了不同病例样本的关联。在医学数据集上的实验结果表明,该算法可以利用 交叉注意力和多类标签信息加强模型的语义学习能力,设计的对齐策略可以有效 地弥合胸部X线影像和诊断报告间的语义鸿沟和异构鸿沟问题。
拟解决的关键问题:胸部影像和诊断报告间跨模态检索研究主要存在的问题:
(1) 模态内表征挖掘学习问题。主要解决了因胸部X线影像(或诊断报告) 相同模态间整体结构相似、局部差异细微,导致模型难以学习到具有代表性表征 的问题。通过构建双塔网络学习不同尺度及细粒度表征,从而捕获更具代表性的 表征信息。
(2) 模态间信息关联匹配对齐问题。主要解决了模型从不同模态下医学数 据间存在语义鸿沟,使得不同模态间语义表征无法直接进行相似度度量,导致相 同语义之间无法进一步进行关联匹配。通过构建双塔网络分别对不同模态中相同 级别上进行模态间信息的关联匹配对齐。
论文特色与创新:
(1) 设计了一种新的胸部X线影像及对应的诊断报告间双塔跨模态检索的 方法。解决了胸部 X 线影像及对应的诊断报告的跨模态检索任务中无法同时执 行全局实例语义对齐和局部细粒度语义对齐的问题。
(2) 设计了双塔网络去学习不同层次的细粒度表征并依据表征进行对齐。 解决了胸部 X 线影像间存在视觉差异小问题,在不同层次级别上分别实现了不 同模态下相同语义间的表征对齐。
(3) 利用端到端的检索方法实现医学领域下胸片和诊断报告间的跨模态检 索。利用交叉注意力挖掘影像和报告模态间的信息关联,利用类标签监督约束模 态间的信息交互,以此挖掘深层次的细粒度语义信息,使得局部病例在不同模态 间的关联得以更好的被模型学习到。
1.4论文组织及安排
第一章介绍本论文研究胸部 X 线影像和诊断报告间跨模态检索课题的研究 背景和意义,交代了国内外跨模态检索的研究现状,阐述了现阶段跨模态检索存 在的问题和研究目标。
第二章介绍Transformer^8]和BERT[29]的基本原理、注意力以及Info NCE损 失函数的基本原理与方法。
第三章介绍胸部X线影像和诊断报告间的双塔跨模态检索方法(CDTCR), 阐述了 CDTCR的模型建立方法以及在医学数据集上的实验结果与分析。
第四章介绍交叉注意力类监督的胸部影像和报告跨模态检索方法(3CRCR), 以及3CRCR的模型建立方法以及在医学数据集上的实验结果与分析。
第五章总结本篇论文的主要工作,分析现阶段胸部 X 线影像及诊断报告间 的跨模态检索在哪些方面存在待解决的问题、未来研究方向和发展的建议和展望。
2 基本理论与方法
本章详细介绍注意力机制基本原理、Transformer基本原理、BERT基本原 理和 Info NCE 损失函数。
2.1注意力机制
注意力机制(Attention mechanism)是深度学习领域研究中研究热点,在深 度学习计算资源有限的情况下,合理的将计算资源合理分配到关键数据处理的一 种资源分配任务手段。注意力机制源自人类的认知神经学,其作用是在信息输入 处理的过程中重点关注对当前任务发挥作用的信息,忽视其他于任务无足轻重的 信息,从而达到进一步提升任务处理的准确性和高效性的目的。注意力机制的做 法是先对编码器中的每个隐藏状态信息分别施加不同的权重,将全部重新加权后 的隐藏状态信息进行求和,加权求和后的隐藏状态信息传入到解码器中,这样便 可以得到一张有关注重点的特征热图,从而使模型有重点的关注某些区域信息。
Source
1
 
 
图2-1注意力机制的框架图
图2-1是对注意力机制本质描述的框架图,其中,Query代表输入查询信息;
Key表示其他待匹配的信息;Value表示输入特征的信息本身,Source中的数据 按照(Key, Value)的格式成对的被存储下来。给定一个查询(Query,Q),然 后比较查询Q储存空间中的对应的键(Key,K)之间的相似度,然后对所有键 K对应的数值(Value,V)进行加权求和。即,查询Q到(K,V)键值对的映射, 注意力函数表示为:
Attention(Query, Source) = ^f=1 Simliarity(Query, Key^ * Valuer (2-1)
11
 
注意力机制计算过程主要分为三个阶段:第一个阶段依据查询Q和键K之 间的相似度,第二个阶段,对Q和K之间的相似度进行归一化处理,依此计算 每个查询Q对每个键值V的权重影响,第三个阶段依据权重大小对每个键值V 进行加权求和,从而得到经过注意力机制处理加权后的值。如图2-2所示:
Query
 
图2-2注意机计算的流程图
注意力机制计算的第一个阶段用于测量Query和Key之间的相似度,常用
的相似度计算方法,如点积、缩放点积、余弦相似度等:
Similarity = Si(Query, Key^) = Qkt ( 2-2)
Similarity = Si(Query, Key^)=鬻 ( 2-3)
Similarity = Si(Query,Keyi) = |爲;川 ( 2-4)
注意力机制计算的第二个阶段用于对模型学习到的相似度进行打分,获取这 一系列相似度值的占比(权重),具体做法是对第一阶段学习到的相似度进行归 一化处理:
g = softmaX(Si(Query,Keyi)) = (2-5)
最后一个阶段依据权重3对所有键值堆分别进行加权并求和,获取局部粒 度和全局之间的关系值计算,从而实现注意力的分配:
Attention(Query, Source)=为◎堆 (2-6)
2.2Transformer 基本原理
Transformer基本原理:Transformer是一种用于处理序列数据的深度学习模
12 型,由Google在2017年研究发布论文《Attention Is All You Need》[28]中提出。 Transformer完全依赖于自注意力机制来计算输入和输出的表征的转换模型,从 而进一步捕捉输入中各个部分之间的依赖关系。
传统的神经网络局限于每个输入信息的单独处理,忽视了前后输入之间的潜 在的信息关联。在自然语言、图像处理、视频解析、音频分析等领域需要对输入 的序列进行信息挖掘和学习,捕获前后输入信息间的关联。例如,当对一句话进 行处理时,句子中前后单词间是存在高层次语义关联的,若只挖掘单个单词的信 息来作为句子的信息,这样对句子语义理解学习是不准确的。因此,与传统的 RNN和CNN网络不同,Transformer的整个网络结构由且仅由多头注意力和前 馈神经网络组成,将序列中的任意两个位置之间的距离是缩小为一个常量,从而 捕获序列与序列间的关系。通过不断叠加 Self-Attention 层,将输入进行多路线 性变换后分别计算注意力的结果,所有结果通过全连接操作后,通过线性变换作 为最终的输出结果。这种操作抛弃了传统RNN在水平方向的传播,实现了在垂 直方向上传播,可以在每一层上完成并行计算,故它的计算比RNN和CNN循 环神经网络的精度高、性能好,效率快。
如图 2-3 所示,它是 Transformer 一个框架示意图,主要由编码器(图左) 和解码器(图右)两部分组成,通常编码器部分由6个相同的小编码器堆叠而成, 每个小编码器中的结构由一个多头的自注意力机制和一个前馈网络全连接层两 层结构构成,每层结构对输入处理之后,均会加入一个归一化层来将信息进行拼 接。前馈网络通过两次线性变换和一个激活函数来对序列中的每个位置进行相似 度计算。解码器也是由 6 个相同的解码器堆叠而成。编码器会对输入数据进行编 码处理,其中小解码器的输入是它的前一个解码器的输出和整个编码部分的输出。 小解码器比编码器多了一个掩码多头自注意力子层,可以有效防止位置编码和后 续位置编码相关,确保了对位置i的预测只能依赖于小于i的位置的已知输出。
 
 
图2-3 Transformer模型的框架图
Self-Attention基本原理:自注意(self attention),注意力是为了更好地理解句 子中单词的含义和上下文。自注意是一种将单个序列的不同位置联系起来以计算 序列表示的注意力机制,一个自注意层用一个常数数量的连续执行的操作连接所 有的位置,因此具有较快的计算速度。
Self-Attention的结构如图2-4左所示,它的输入是上一个编码块的输出或输 入的表征向量构成的矩阵,由 query、 key、 value 三部分线性变换后的输出,公 式表示如下:
Attention(Q, K, V) = Softmax (^^=) (2-7)
上式是self-attention的原始形态,也是transformer的核心公式。向量query 和key之间做内积,可以将向量query投影到向量key上,投影值越大说明key 更加符合query的查询结果。若向量query和key之间的内积为0,说明两个向 量之间的夹角为 90 度,两个向量线性无关,输入与对应的查询结果没有一点关 联。注意力机制的核心是加权求和,权重是通过相似度计算归一化来获取对应的 权重,通过对每个单词都进行了注意力计算,可捕获长距离依赖,获取单词与单 词之间的关系密切程度。将相似度归一化之后加权给value,并对结果进行加和 计算,得到最后的Attention Value。加入Self-Attention可以突出关联性强的部分。
14
 
Q K V Q K V
Self-Attention Multi-Head Attention
 
图2-4图左为Self-Attention结构图,图右为Multi-Head Attention框架图
Multi-Head Attention 基本原理:对于同一个文本,一个注意力可以获得一个 表示空间,如果多个注意力,则可以获得多个不同的表示空间。基于这种想法, 就有了 Multi-Head Attention。如图2-4右所示,多头注意力是由多个自注意力模 型组合形成的,当前层的注意力计算只和前一层的值有关,所以一层的所有节点 可并行执行 self-attention 操作。具体表述公式如下:
Qt = QWjQ,Ki = KW^,Vt = VWy (2-8)
headi = Attention(Qi,Kt, Vj) = Softmax (^^=) (2-9)
MultiHead(Q, K, V^) = Concat(head1,. ..,headn)W0 (2-10)
Multi-Head Attention 基本结构和 self-attention 相同,在进行计算时,使用多 个头去关注学习不同表征子空间下的表征,不同的头会学习到不同层面的知识, 每个注意力中采用不同的Query / Key / Value权重矩阵,对self-attention进行并 行计算。通过训练,将词嵌入投影到不同的“表征子空间”中。将“个头产生的 Attention 矩阵全部连接在一起后再进行一次线性转换,使得输出的 Multi-Head Attention矩阵和输入矩阵形状大小保持一致,从而捕获数据内部的丰富语义信息。
2.3BERT 基本原理
BERT 基本原理:BERT 的全称为 Bidirectional Encoder Representation from
15
Transformers^9】,由多个Transformer组成的预训练语言表征模型,由Google在 2018 年提出,旨在通过联合调节上下文中公共语义信息训练学习来自无标签文 本的深度双向表征。因为 Transformer 由一个读取文本输入的 Encoder 和一个为 任务生成预测的Decoder这两个独立的机制构成,而BERT的目标是生成语言模 型,所以BERT模型只需要Encoder这一模块来完成文本表征的学习。图2-5是 BERT 模型的一个框架示意图。
 
 
输入的文本在BERT模型里被预处理,如图2-6所示,BERT模型嵌入层的 输入主要由三个子层求和得到的,分别是词向量层token embedding、位置编码层 position embedding和句子层segment embedding三部分子层。BERT的输出如图 2-5中橙色矩形所示,Transformer具有输出数量等于输入数量的特点,所以文本 经过 BERT 模型处理得到的输出便与输入文本一一对应。
Input [CLS] my dog is cute [SEP] he likes play ##ing [SEP]
Token
Embedding E[CLS] Emy Edog Eis Ecute E[SEP] Ehe Elikes Eplay E##ing E[SEP]
***********
Segment
Embedding Ea ]| EaEa ]| Ea Ea ]| Ea ][ Eb ][ EJ [ EJ | EJ | eb 1
***********
Position
Embedding 图2-6 BERT模型的输入图
 
Token Embedding 基本原理: Token Embedding 作用是将各个词转换成固定维
度的向量,从而便于后续的表征学习和计算。 BERT 模型对文本进行预处理时, 首先为文本的每个句子前加上一个[CLS],在每个句子末尾加上一个[SEP],它们 是为后续分类任务和划分句子对服务的。如果文本由两个及以上的句子组成的时 候,只在第一个句子的开头加上[CLS],最后一个句子末尾出加上[SEP]。此外, 在对每个单词进行Token编码嵌入时,部分词语会被分割成两部分,例如,“My dog is cute, he likes playing."这句话中的“playing"会被BERT模型中的分词器 分为“play”和“##ing”两部分,从而进一步捕获更细粒度的语义表征。
Position Embedding 基本原理:这部分的作用是用于保证文本输入的时序性, 解决了一词多义的问题。 BERT 通过 Position Embedding 将每个 token 转换成特 定维度的查询表,每个token在这个查询表中都会对应着特定的向量表示。单个 单词在文本中处于不同位置时会产生不一样的语义,如,“I think, therefore I am." 这句话中的两个“I”所处位置不同,表达的意义也是不同的。由于Transformers 的位置编码由正弦/余弦函数计算出来的固定值,只能标记这是某一个位置,无法 编码输入的时序信息。因此BERT对输入文本进行Position Embedding,给单词 施加随机生成的位置向量,将每个单词的时序信息编码进来,从而区分不同位置 单词的语义。
Segment Embedding 基本原理:Segment Embedding 的作用是使 BERT 模型可 以对输入句子对进行分类任务,判断两个句子之间的关系,刻画文本的全局语义 信息。对于输入的句子对,句首的[CLS]可以在self-attention的作用下捕获上下 文信息,第一个句子通常用全为 0 的向量表示,把 0 赋予句子中每个编码得到 token,第二个句子用全为1的向量表示,把1赋予句子中每个编码得到token, 从而进一步判断两个文本的语义是否是相似的。
MLM的基本原理:MLM的全称是Mask Language Model (语言掩码模块), 是 BERT 能够不受单向语言模型所限制的核心。 BERT 在 Transformer 机制上, 通过多层双向计算训练学习语言模型,训练过程中随机地用[MASK ]去掩码部分 token,然后预测那些被屏蔽的token,从而预测[MASK]位置原有的单词,使模型 学习到单词与单词间的关联。简而言之,对一句话中的一个或几个单词进行删减 处理,根据句中剩余词汇信息预测被抹去的单词分别是什么。这可以使模型基于 MLM的预训练过程中,依赖于上下文信息进行单词预测,学习到更具有鉴别力 的表征,训练好的模型具有一定的泛化能力。
17
 
2.4Info NCE 损失函数
Info NCE损失函数:对于利用对比学习来进行跨模态检索而言,损失函数有 多种,其中比较常用的一种是 Info NCE 损失函数( Normalized Mutual Information Neural Estimation),是一种用于自监督学习的损失函数,最早是在《Representation Learning with Contrastive Predictive Coding》30]这篇论文中提出 Info NCE 的概念。 它的核心思想是基于互信息的一个损失函数,通过计算正负样本对之间的条件概 率和归一化操作来获取样本之间的互信息。
Info NCE 损失函数是由交叉熵损失(Cross Entropy )和 NCE(noise contrastive estimation)演变而来,以九个样本类别的嵌入表征兀为例,z:表示兀经过全连接层
的输出结果,通过Soft-max操作后的结果为:
 
对于对比学习而言,模型面临数据量大的数据集时,soft-max操作的计算量 和计算复杂度是非常高的,直接使用交叉熵损失函数来进行对比学习是不合适的。 于是便产生了 NCE(noise contrastive estimation)损失函数,其核心思想是将多
分类问题转化成二分类问题,一个类是数据类别,另一个类是噪声类别,通过学
习数据样本和噪声样本之间的区别,将数据样本去和噪声样本做对比,从而发现 数据中的一些特性,通过负样本采样计算损失来降低复杂度。 NCE 损失函数公 式为:
LNCEk = logp((D = 1\c, e)) + kx 》+ x logp(D = 0|c,厉)
(^,c)etD i = 1,(b~q
=》(logp((D = 1\c,e)) +》logp(D = 0\c,e)
(^,c)etD l=1,G〜q
2-14)
在进行模型的学习和训练时,若简单的把问题视为一个二分类问题,只存在 数据和噪声样本,把原本不是一个类的噪声样本作为同一类来处理,这样的操作 是不合理的,训练出的模型的性能会受到影响。为了解决这个问题,将噪声类别 进行区分,把问题视为多分类问题来进行训练学习,于是,便有了 NCE 的变体 的产生——Info NCE loss函数。公式如下:
屮+
L = —log (2-15)
上式中q和k+互为正样本对,q是查询样本,T是一个预先设定的温度超级参 数,是个标量。通过调整温度超参,控制模型对负样本的区分度。对于给定的 Logistic函数分布而言,温度系数t值设的越大,其倒数1会随之变得很小,qxk 在函数图中的分布随之变得更加平滑,经过指数运算后, Logistic 函数分布也会 变得非常平滑,对比损失会使模型将所有的负样本视为同类,最终导致模型学不 到正确的负样本间的信息分类。如果温度系数T值设的非常小,其倒数1会随之变
T
得很大, Logistic 函数分布里函数数值剧增,经过指数运算后数值增量更大,分 布变得更集中,模型会重点关注可能是分布上接近负样本的潜在的正样本,导致 模型难以收敛或泛化能力差。总而言之,温度系数控制了模型对负样本的区分度 及鉴别力它的设定是不可或缺的。
如果忽略T,那么Info NCE损失函数本质上来说仍然是交叉熵损失函数,其 目的是做一个k + 1类的分类任务,把查询样本q分到你个类别之中,分到每个类 别/中的概率就代表查询样本q与类别/之间的相似度。与交叉熵损失函数的区 别是,在交叉熵损失函数里,k指代的是数据集里类别的数量,而在对比学习的 Info NCE损失函数里,这个k指的是负样本的数量。上式Info NCE损失函数中 的求和是在1个正样本和k个负样本上做的,从0到k,所以共k + 1个样本,也 就是字典里所有的key。He在提出Mo Co模型的论文中指出,Info NCE loss从 本质上来说就是一个交叉熵损失函数,目的是完成一个k + 1类的分类任务,把 查询q代表的图片分到k + 1个类之中。因此它可以很好的完成不同模态下样本之 间表征的对比学习和分类的任务,可以用于跨模态检索领域中样本之间的关联构 建。
2.5本章小结
本章详细介绍了注意力机制的基本原理、Transformer基本原理、BERT基 本原理和Info NCE损失函数。对于注意力机制的基本原理,讲述了注意力的基 本框架相关理论知识,并描述了注意力机制中关于Q、K、V的计算过程以及软 注意力机制相关知识。对于Transformer介绍了基本算法框架以及基本原理,依 据讲解的Transformer的结构引入了 BERT模型基本框架的组成部分,介绍了 BERT模型的输入嵌入处理过程以及BERT的基本原理。最后介绍了 Info NCE 损失函数,以问题为导向,当深度学习模型面临对比学习中庞大的计算量和复 杂度时,传统的交叉熵损失函数不适用损失函数的计算,因而引入了 NCE损失 函数的介绍,但NCE损失函数存在样本之间分类不明朗的问题,从而进一步介 绍Info NCE损失函数产生的过程,通过详细分析Info NCE损失函数的参数变 化性质,发现Info NCE损失函数能用于对比学习方法中,实现不同模态下样本 之间表征的对比学习和分类,更适用于跨模态检索领域中样本之间的关系构 建。
3胸部影像和诊断报告的双塔跨模态检索方法
本章介绍胸部X线影像和诊断报告的双塔跨模态检索(CDTCR)方法,主要 包括模型建立、模型训练与优化、模型实验结果分析三个方面。
3.1模型建立
3.1.1模型建立的动机
随着全球医疗体系信息化不断的推进发展,越来越多的医疗信息数据被医疗 系统产生并堆积起来,如CTA影像、XCT影像、PET影像、MRA影像、B超影 像以及每位患者的诊断报告等。这些病例以多种模态的数据类型被表示出来,却 又在语义信息上存在不同程度的关联,如,同种病例的诊断报告和其对应的影像 报告。因此,如何利用这些堆积的数据信息,实现胸部X线影像和诊断报告间的 跨模态检索,成为了国内外跨媒体研究在医疗领域中的热门课题。胸部 X 线影 像和诊断报告间的跨模态检索是以胸部 X 线影像(或诊断报告)检索对应的诊 断报告(或胸部X线影像),其检索结果为医生诊断提供参考信息,可以有效减 轻放射科医生的工作压力和工作量,进一步提升医患间的诊断效率。医学领域中 的跨模态检索与自然场景下跨模态检索有很大的差异,胸部 X 线影像存在清晰 度差、重叠影严重、整体结构相似、局部差异细微等问题;诊断报告呈现整体结 构相似、主题语义差异小、语义表征学习难度大等问题,因此现有的自然领域的 跨模态检索不适用于医学领域中的跨模态检索。
目前自然领域中主流的跨模态检索框架主要分类两类,单塔模型和双塔模型。 单塔模型能够学到模态内部的细粒度特征,学习到的表征具有较强的表现力。具 有代表性的单塔跨模态任务模型如Kim等在论文中所提出的ViLT[31 ]将视觉和语 言信息两个模态间的信息交互,从而进行检索。Chen等[32]提出的UNITER,利 用注意力机制去学习和 Transformer 使模型理解不同模态下的上下文理解,将检 索任务变成二分类任务来进行图文间的跨模态检索。由于单塔模型的计算量较高, 对于图文之间的跨模态检索需要检索与查询间构建数据对,无法离线计算,且对 数据集要求较高,要求图像文本对之间具有较强的关联。双塔模型相对于单塔模
21
 
型的检索计算量小很多,可以离线计算,计算量和计算复杂度低于单塔模型。训 练时,对于图像文本之间的数据关联要求低于单塔模型。具有代表性的方法如 OpenAI在2021年在论文[33]中提出的CLIP模型,通过图像和文本编码器分别从 图文两个模态中捕获对应的表征信息,通过构建相似度矩阵来完成下游的跨模态 检索任务。文澜团队在论文[34]中基于交叉跨模态对比学习框架提出的大规模图文 互检模型(BriVL),通过视觉流和语言流分别对视觉和语言进行编码表征学习, 通过对比学习模块来进行两个模态间的信息交互学习。双塔模型可以很方便地把 编码器模块替换为最新的单模态预训练模型,从而可持续地增强模型表达的能力。
上述方法都是自然场景下的跨模态检索,为了克服医学领域中特有的类间差 异小,类内差异大等问题,受SimCLR[35]和MedCLIP[36]对比学习框架的启发,本 文提出了一种全局和局部联合对齐的胸部 X 线影像和诊断报告的双塔跨模态检 索方法(CDTCR)。如图3-1所示,该方法由一个端到端的对比学习框架构成, 主要由影像编码器、文本编码器、特征交互对齐块三部分组成。用残差网络搭建 了一个影像编码器,捕获胸部 X 线影像的全局实例级特征和局部的细粒度语义 特征。搭建了一个由BERT模型构成的文本编码器,提取诊断报告的全局和局部 的细粒度语义特征。设计了胸部 X 线影像对句子和区域对词组两个不同粒度的 模态间信息对齐策略,建立了交互对齐模块,实现不同模态间多层次语义对齐, 解决不同模态间细粒度语义关联不足的问题,从而实现跨模态检索。主要贡献为:
 
图3-1 CDTCR的框架图
•提出了一种面向胸部X线影像和诊断报告的双塔跨模态检索新方法。
22
该方法提出的双塔网络同时考虑了全局实例语义对齐和局部细粒度语 义对齐。
・设计了的双塔网络学习了不同模态下多层次的细粒度表征,并在多层次 多级别上实现了不同模态下相同语义间的信息交互关联。
・ MIMIC-CXR 医学数据集上的实验结果表明, CDTCR 的跨模态检索性 能优于现有的跨模态检索方法。
3.1.2 模型建立的方法
问题定义:假设胸部X线影像和诊断报告对组成的数据集为0 = {X,Y} = {xi,yi}^=1,其中兀和%分别代表第i组影像报告对的原始胸部X线影像和诊断报 告。第i组影像报告对对应的标签为Limg = Ltxt = {l±, l2,— ,ln} G {0,1}cxn,其中c 是总类数。胸部X线影像和诊断报告间的跨模态检索核心在于学习胸部X线影 像和诊断报告对应模态内部的表征{X,Y},将学习到不同级别的表征映射到公共 空间中,依据不同模态样本{Xi,yt}在公共空间中的相似度打分,进一步判别样本 是否语义相似,是否属于同一类别。
算法结构:设计残差网块搭建的残差网络作为影像编码器的主干,利用BERT 模型作为文本编码器的主干,分别学习胸部 X 线影像和诊断报告的全局和局部 表征,将学习到的表征分别映射到公共空间中,在实例级特征交互对齐、语义级 特征交互对齐和实例语义级三个级别下实现胸部 X 线影像和诊断报告报告间的 信息交互对齐,使得不同模态间语义相关的样本在映射空间中的相似度更大,语 义无关的样本在映射空间的相似度尽可能的小,从而实现胸部 X 影像和诊断报 告间的跨模态检索。
影像编码器模块获得影像的全局和局部表征,CDTCR利用Res Block[37]和一 个GAP层(global average pooling)作为主题搭建了一个影像编码器。首先利用 影像编码器中Transform对输入的胸部X线影像进行数据增强预处理,将输入的 影像平均分成8X8个影像块,通过Transform对影像分别进行旋转裁剪抖动等 操作,将影像拓展为2048X2048维度的表征矩阵后,对学到的表征进行归一化 处理,从而提升模型的泛化能力,提取到更有鉴别力的全局表征Xg。对影像进行 数据增强之后,将输入的影像平均分成8x8个影像块,经过构建的残差网络处理
23
后,为学习局部表征,在此引入Soft-attention(SA)[38],当影像经过5层Res Block 和一个卷积层之后我们使用Soft-Attention捕获到影像的局部表征Xr,其中Xg E R1XM,XrGRPxm,Xg和Xr分别表示为:
Xg=^(U) (3-1)
Xr = Fs") (3-2)
其中,V = E{(X)表示胸部X线影像经过后编码器学习到的特征信息,E,代表影 像编码器,巧表示影像编码器的映射头,= Ft(V)表示胸部影像被编码器的映射 头投影到公共空间中所被学习到的影像表征。
针对医学诊断报告中存在多个单词对影像局部信息进行描述的情景,一些特 定的医学词汇或者语句用词也存在不止由一个单词组成的现象,只利用单个单词 作为诊断报告的局部信息是不合适的。一个句子的局部信息不应该由单个单词组 成,为了获取诊断报告在文本模态下的局部特征,应捕获多个单词构成诊断报告 的局部信息。因此CDTCR在利用文本编码器捕获诊断报告的局部信息时,通过 文本编码器获取1-3个单词组成的词组厶、以此作为诊断报告的局部信 息,从而实现对诊断报告语义信息的深层次挖掘。
文本编码器模块对输入的诊断报告进行编码学习,捕获报告中包含的全局表 征信息和局部表征信息-CDTCR构建一个调整过的BERT对诊断报告进行编码, 其中,这个BERT包含了 8个映射头和3层Transformer Blocks。为了捕获诊断 报告的全局表征信息,使用一个调整过的BERT对每一个诊断报告文本输入%进 行特征提取,利用一个分词器对诊断报告中的句子进行分词处理,BERT将处理 过后的单词进行编码,获取到每个单词对应的掩码嵌入,位置嵌入和段落嵌入信 息进行融合,并在编码器的最后一层加入一个Pooling层来获取报告的全局特征 其中力G 心。编码器对每个单词的特征进行编码得到单词特征仍后,分别 使用卷积核大小为2和 3 一维卷积挖掘2个单词组成的词组特征和 3 个单词组 成的词组特征,分别表示为Fg、yt,其中沧e rmxQi、YB e rmx^2、yT e rmx^3, 屮 1和炉2表示大小为2和3的卷积核。CDTCR将这些学到的词组信息作为诊断报 告的局部信息来进行后续的语义关联对齐操作。在对全局和局部的表征进行编码 学习后,将诊断报告的特征映射到一个与影像特征相同的维度空间里,便于后期 进行对比学习。文本编码器学到诊断报告的全局和局部表征分别为:
24
 
 
% = Ft(FC(T))
3-3)
Yw = Ft(T)
3-4)
Yb = ^n(T)
3-5)
Yt = ^T2(T)
3-6)
其中,T = Et(Y)表示编码器学习到的文本特征,Et表示文本编码器,Ft表示文
本编码器的映射头,FC(■)表示平均池化操作,Tt = Ft(T)表示诊断报告经过映射
最终捕获的文本特征。
对齐交互模块:本文主要从实例级特征交互对齐、语义级特征交互对齐、实
例语义级特征交互对齐三个不同级别实现模态间的信息交互。
实例级特征交互对齐是分别利用影像兀(或文本%)作为MTCR的查询,其 对应的文本% (或影像兀)作为查询对应的key值,实现影像视觉和语言文本不
同模态下的实例级特征对齐。定义影像编码器和文本编码器之间的一个双向 Info
NCE Loss[39],将影像到文本的和文本到影像之间的对比损失定义为:
3-7)
+骂 =oe
Lt21 =—佥》g i°g —申
e +^j=oe T
3-8)
LI2T + LLT2I ^contrastive
3-9)
其中,f(xi,yi)表示相似度计算,B表示批次大小,t表示温度系数。 语义级特征交互对齐:由于胸部 X 线影像数据的特殊性,胸片影像中会包
含了大量的病例语义信息,而诊断报告中某些短语或词组在语义上会直接代表影
像中某一区域,因此直接对胸部 X 线影像图中的像素点与诊断报告中的单个单
词进行计算对齐是不合适的,故CDTCR通过编码捕获诊断报告相邻单词构成的
短语作为语义局部信息,从诊断报告中捕获的短语信息与影像的局部信息一起映
射到一个新的空间中进行匹配,设计了一种新的注意力机制计算方法,模型在注
意力的重点关注下,计算影像区域和报告短语间的细粒度语义相似度,实现模态
间细粒度语义表征的交互建模。具体做法是利用BERT对医学诊断报告进行短语
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
信息采集,构建由一个到三个单词组成的词组,分别记为仍、Yb、Yt,使用点积 计算胸片区域和诊断报告中词组之间的细粒度相似度,表示为:co = XTYR,其中 m e RPxQ。相似度矩阵归一化处理e = normalized(M)-
CDTCR基于交叉熵损失函数构建模态间细粒度语义对齐。由于词组和区域 之间不能直接进行余弦相似度计算,因此我们构建一个基于注意力的匹配打分机 制来克服这一挑战。相似性权重设置为:
3-10)
其中。表示超参。接下来,对每一个区域特征Xr分别进行加权,加权后的区域特 征如下:
0 = 8ijrT
3-11)
经过加权处理后区域Xr与单词仍之间的相似度打分设置为:
s啊(I, T) = log Q斗常(",疝)y
3-12)
其中,S表示余弦相似度计算。同理,经过加权处理后区域Xr与对应的词组Yb、
Yt之间的相似度计算函数为:
S^B(I,T) = log(^^eys(^i'Y^)
S^T(I,T) = log(^^eys(^i'YT))
3-13)
3-14)
其中,Y表示超级参数。基于交叉熵损失计算方法,经过注意力关注的区域词组 级关联匹配函数设置为:
必為=-lB=ilog(P(Ii\Ti))=-君 =1 log
其中,卩表示超级参数。胸部影像和诊断报告模态间语义级信息交互对齐的函数 设置为:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
实例语义级特征交互对齐:CDTCR首先依据输入的胸部影响和诊断报告对 对应的语义标签Limg和Ltxt构建影像和文本实例之间的语义关联约束。在进行迭 代计算时,利用影像文本对对应的真实标签,建立相应的医学实例语义相似性打
T
eLtxt ®^img
芒p [ eL,txt ®Limg
3-18)
CDTCR首先对输入模型的胸部影像诊断报告对(Xi,Yi)进行预测,得到影像
文本对的相似度得分,并通过soft-max对相似度进行归一化处理:
s(x》,叫)
e t
3-19)
其中,S代表余弦相似度函数,T是温度参数,初始值为0.07。实例语义特征交互 是医学实例语义相似性和图文相似性匹配之间相互约束的结果,损失函数设置为 交叉熵损失函数:
心=-佥匚=£=1%1。9旳
同理,可以得到厂耳对应的交叉熵损失函数:
实例语义级跨模态交互对齐的总损失定义为:
3-20)
3-21)
Lsl
3-22)
目标函数:CDTCR主要从三个级别的信息交互来实现两个模态间的语义关
联建模,影像编码器和文本编码器分别捕获胸部 X 线影像图和诊断报告的全局
特征和局部特征后,将两个模态下不同级别的表征分别映射到公共的表征空间中, 利用对比损失Lcontrastive来完成两个模态下相同实例的关联建模,定义一个局部
损失^region来实现胸部影像和诊断报告局部区域间的细粒度语义信息对齐,定义 实例语义损失函数Lsl来完成模态间相同实例语义级特征间的交互。结合不同粒 度级的信息交互对齐,双塔跨模态检索中的完整目标函数表述为:
Ltotal
—^-i^region + 入2 Lcontrastive + ^3^SL
3-23)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
其中右,久2,久3是参数。
3.2模型训练与方法
算法1胸部X线影像和诊断报告的双塔跨模态检索(CDTCR)
输入:训练影像文本对0 = {\丫} = {禺,刃}¥=1,跨模态相似性矩阵S,标签矩
=Ltxt = {li, l2, -, ln} e {0,1}CXn,批次大小设置为N;参数右、久2、久3、
T.
 
 
 
 
=入⑷(LWTEM + LvWcEM)+ 入 &(LBiCEM + LBCEM)+ \(LTCEM + LTCEm)
w b t
L]2T + LLt2I
^contrastive
Ltotal =入 iGegion + ^2^contrastive + ^3^SL
更新参数:根据损失函数L更新编码器d和Et,以及参数右、久2、久3、
T.
10:循环结束
至最大迭代次数
文方法迭代训练影像编码器、文本编码器以及模型中的损失函数,采用 SDG 算法进行优化求解,具体算法流程如算法 1 所示。
3.3模型实验结果与分析
数据集:本文所使用的数据集是由斯坦福大学收集的一个大规模的医学数据 集--MIMIC-CXR数据集[40]。其中主要的数据是源自贝斯以色列女执事医疗中心 在2011年到2016年间收集的胸部X线影像和对应的诊断报告。MIMIC-CXR数 据集中包含377,110张胸部X线影像图和相应的诊断报告,在每组影像和诊断报 告中,胸部 X 线影像存在着一到两张影像的正视图和侧视图,每位病人的诊断 报告都被打上14维标签用于表示患者是否患有某些疾病。本文采集了其中73,876 张胸部 X 线影像对本文提出的模型进行评估。模型测试时,从数据集中随机筛 选 762 对胸部 X 线影像和诊断报告作为查询集,其余作为检索集,对模型进行 训练时,使用了14000对样本对来对模型进行训练,使用 440对样本对来对模型 检索性能进行验证。具体信息如下表所示,其中样本表示训练集的数量/测试集的 数量/验证集的数量。
表3-1 MIMIC-CXR数据集的详细信息
数据集 样本 类数 影像特征 文本特征
MIMIC-CXR 14000/762/440 14 Q x 512 Px512
实验评估:在跨模态检索任务中,平均精度均值(mAP)常用与对模型的性能 进行判定。mAP计算前需要对平均准确率进行计算:
AP —1^l=iP(i)5(i) (3-24)
其中,m表示样本相关结果的数量,/是语义相关的总数查询,p(i)表示前i个检 索样本与查询之间的相似度,8(i)是用于判断检索结果是否正确的指标。8(i) — 1表示第i个实例与查询相关,3(i) — 0表示第i个实例与查询不相关。模型的mAP 值计算结果越大,表明模型的检索性能越优异。文本在影像检索文本和文本检索 影像两个任务上来对模型的性能进行评估判定,并计算了对应的 mAP 值。
实验细节和比较方法:本文提出的CDTCR检索方法通过PyTorch[41 ]来进行
29
跨模态检索任务,在 NVIDIA 1080 Ti 的环境中完成实验验证。模型首先通过 Transform 对胸部 X 线影像进行数据增强,具体做法包括对影像进行随机旋转、 随机裁剪和颜色失真抖动等,对胸部 X 线影像进行编码的编码器中使用的 Res Block®]是He提出的,将输入的影像通过Res Block 5分割成8X8个影像块作 为影像的局部区域信息。对于每个报告中的句子处理成为最大长度为160,如果 句子长度大于160时,将多余部分直接删除处理,如果句子长度低于160时,缺 少部分全用 0 进行填充。文本编码器是由一个包含 3 层 transformer 块和 8 个注 意力头的BERT模型构成。实验的批次大小设置为24,损失的超参设置为右= 0.5, = 0.2,久3 = 03 t = 0.007学习率设置为10-5。所有的实验都进行了五
次,取五次结果的均值作为最终的结果。为了表明本文提出 CDTCR 的有效性, 通过以下具有代表性的方法与CDTCR进行对比实验:
--SePH[10]: 该算法设计了一个模态间的语义相似度计算方法,通过最小化 语义标签和哈希码分布之间的KL散度完成模态间语义相似度打分,根据计算打 分结果来学习模态间的信息关联。
--DCMH[12]: 该算法基于深度学习的方法,设计了一个端到端的学习框架, 将模态内部表征学习和哈希码学习进行融合,依据融合结果来进行跨模态检索。
--SSAH[11]错误!未找到引用源•:该算法设计了一个自监督语义对抗网络,将自监督 方法和对抗学习的方法融合到跨模态哈希检索中。
--DMCAH[3]: 该算法设计了一个端到端的哈希方法,提取医学图像之间的 小视觉不同特征来进行医学跨模态检索。
--method[4]:该算法设计了一个胸部x光片和放射学报告之间的类别监督的 交叉模态哈希检索,利用类别监督的哈希网络和联合哈希网络来学习跨模态相似 性。
在MIMIC-CXR大规模医学数据集上的实验结果:
recall@k 指标:在 MIMIC-CXR 数据集上检索的 recall@k 结果如表 3-2 所 示,“I2T”表示胸部X线影像作为查询,检索对应的诊断报告文本,“T2I”表 示诊断报告作为查询,检索对应的胸部X线影像。从表中可以发现,DCMH在 检索过程时,只考虑模态的全局表征,忽视了模态间相同实例的语义信息,检索 结果具有一定的局限性,检索结果的准确率因此不高。与DCMH不同,SePH通
30
过约束标签和哈希码分布之间的散度差异来保持哈希码与原始数据之间语义的 一致性,其检索结果与DCMH相比有了一定的提升。而本文提出的CDTCR考 虑了模态间不同级别尺度的细粒度语义,加深了模态间的信息交互,故本文提出 的CDTCR具有好的检索结果。对比表中DCMH和SePH的检索结果很明显发 现,本文提出的CDTCR方法具有最好的性能,在影像和诊断报告文本间的跨模 态检索任务上召回率有了显著的提高。
mAP指标:不同模型在MIMIC-CXR数据集上的mAP结果如表3-3所示。 “I2T”和“T2I”分别表示使用胸部X线影像查询诊断报告文本和诊断报告文本 检索对应的影像的任务。在影像检索诊断报告文本任务上CDTCR比现有医学跨 模态哈希的方法的 mAP 值提升了 2.95%,在诊断报告文本检索影像的任务上的 mAP值提升了 2.95%和1.42%。由表3-2和表3-3结果可知,本文所提方法CDTCR 是优于现有的医学跨模态检索的方法。
表3-2在MIMIC-CXR数据集上不同模型recall@k
方法 R@1 I2T R@1 T2I
R@5 R@10 R@5 R@10
SePH 0.211 0.445 0.643 0.217 0.416 0.614
DCMH 0.215 0.452 0.645 0.213 0.414 0.609
CDTCR 0.252 0.466 0.657 0.236 0.438 0.625
 
 
表3-3在MIMIC-CXR数据集上不同模型的mAP值
模型 SSAH DCMH DMCAH Method[4] CDTCR
I2T 0.4787 0.4903 0.5312 0.5021 0.5607
T2I 0.4833 0.4630 0.5305 0.4947 0.5447
前10检索结果:图3-2显示了 SePH、DCMH、DMCAH和本文提出的CDTCR 检索方法在MIMIC-CXR医学数据集上的前10检索结果,图中由蓝色框圈出的 影像或文本代表的是匹配的检索结果,被红色虚线圈出的影像或文本表示检索错 误的结果,没有被线框圈出的影像或文本表示查询到的结果与被检索为正确的蓝 色线框内的概率相比要低。可以很明显从图中发现影像检索任务中方法SePH的 检索结果存在2处错误,方法DCMH的第三个检索结果是错误的,本文提出的
31
 
CDTCR在第三个检索位置处检索结果是正确的。对于胸部X线影像和诊断报告 间的跨模态检索任务,从图中容易观察到本文提出的方法具有最好的实验性能。 由于医学领域中影像及诊断报告存在类内差异大,类间差异小,如:胸部 X 线 影像清晰度差、重叠影严重、整体结构相似、局部差异细微;诊断报告结构相似, 语义差异小,语义表示学习难度大等问题。本文设计的影像编码器从全局和局部 两个尺度下分别学习具有细粒度的影像特征,设计的文本编码器去学习对应尺度 的特征,捕获多个语义相关的单词构成的词组作为文本的局部信息,这些细粒度 特征包含了对应模态下一些隐式的信息,在不同级别进行模态间的信息交互,加 深了不同模态间相同语义实例间的信息交互,因此本文提取的方法才会具有更好 的实验性能。
Top10检索结果
SePH
 
CDTCR
 
 
图3-2跨模态检索方法在MIMIC-CXR数据集上前10个检索结果
3.4本章小结
本章提出了一种新的基于胸部 X 线影像图和诊断报告的双塔跨模态检索算 法,通过学习胸部X线影像图和诊断报告对不同尺度下的表征,在多级别、多层 次下实现模态间的信息对齐交互,从而实现影像和报告间的跨模态检索。该方法 可以有效地挖掘影像和报告中全局和局部细粒度语义信息,利用挖掘到模态内部 多层次下的语义信息分别进行模态间多级别语义关联建模,指导模型完成胸部X
线影像和诊断报告间的跨模态检索任务。通过对比实验验证了 CDTCR的有效性, 且本文的方法也可用于自然领域中的跨模态检索任务。
4 交叉注意力类监督胸部影像和诊断报告跨模态检索方法
本章介绍交叉注意力类监督的胸部影像和报告跨模态检索方法(3CRCR), 主要包括模型建立、模型训练与优化、模型实验结果分析三个方面。
4.1模型建立
4.1.1 模型建立的动机
上一章在进行模态间局部信息的交互学习时,对模态间不同实例的细粒度语 义关联进行深度挖掘和对齐的问题进行研究。在研究和设计模型的过程中,只是 粗暴的利用了局部图像块和词组之间的信息来进行注意力学习,忽视了每种病例 的真实标签信息,缺乏一定的信息监督。
针对模态间细粒度语义关联的问题,更好的挖掘深层次的局部细粒度语义信 息,本工作提出了一种基于交叉注意力类监督的胸部影像和报告(3CRCR)跨模 态检索方法。 3CRCR 使用交叉注意力来完成模态间的语义信息交互,同时利用 标签信息来约束不同模态间不同级别的细粒度语义关联,从而挖掘学习不同模态 间多层级细粒度语义。
如图4-1所示,3CRCR首先利用Vision Transformer模型和BERT模型构建 的编码器分别捕获影像和报告的全局和局部表征。使用不同模态间的相同实例的 标签作为类标签信息,约束影像和报告两个模态间的全局信息交互。在进行模态 间的细粒度交互计算时,利用交叉注意力分别捕获影像和报告的局部细粒度信息, 影像(或报告)模态下的局部信息经过交叉注意力加权后与报告(或影像)模态 中的局部信息进行关联计算,最后采用类标签信息作为监督信息来进一步约束模 态间细粒度语义特征交互对齐,从而挖掘影像和报告两个模态间深层次的细粒度 语义交互。
交叉注意力类监督的胸部影像和报告跨模态检索的主要贡献为:
(1)提出了一种基于交叉注意力类监督的胸部影像和报告跨模态检索方法。 该方法利用类标签信息对不同级别下的信息交互进行约束,精准的挖掘出模态间 细粒度语义信息间的关联,从而实现影像和报告间的跨模态检索。
34
 
(2)设计了模态间不同级别层次细粒度语义信息交互,并利用类标签信息 约束了模态间不同级别下细粒度语义关联。
(3)模型在MIMIC-CXR数据集上的实验结果表明提出的3CRCR检索方 法优于现有的检索方法。
 
4.1.2 模型建立的方法
符号:定义数据集中的胸部影像和诊断报告对为。={X, Y} = {xi,yi}h, 其中兀和%分别表示第i组影像报告样本对中的胸部线影像和诊断报告。第i组 影像报告样本对对应的标签为厶={li,l2,-,lN} G {0,1}cxW,其中c是类别的总数 量。
算法框架:3CRCR主要利用Vision Transformer作为影像编码器的主体框架 和 Bert 模型作为文本编码器的主干来学习影像和报告的全局和局部表征,将学 习到的表征分别映射到不同级别下的公共空间中,从全局表征实例语义交互、基 于交叉注意力局部细粒度语义交互和多粒度混合交互三个级别来进行影像和报 告间语义表征的关联对齐,进一步弥合胸部影像和报告间的高层语义鸿沟和底层 数据异构鸿沟问题,加强不同模态间相同病例样本在公共表征空间中的相关性, 削弱不同病例的样本在公共空间中关联,最终实现胸部 X 影像和诊断报告间的 跨模态检索。
影像编码器模块:对于输入影像编码器的胸片影像,首先将影像进行随机
35 旋转、裁剪、抖动等操作,使输入影像进行数据增强后输入到影像编码器当 中。3CRCR受Wu Kong[26]大模型的启发,采用Vision Transformer作为影像的 编码器的主干。
对通过随机旋转、裁剪、抖动等操作增强后的数据进行分割,并分为8X8 个影像块,对每个影像块获得影像对应的局部表征。通过线性映射将64个影像 块局部表征映射到一个嵌入层,作为影像块的局部token向量,记为xf,其中 每个token的长度都是512。将局部表征向量前连接一个[CLS],再与对应的位 置信息嵌入融合,作为影像的全局表征,记为请。
文本编码器模块:对于每一个输入的诊断报告,首先对报告中的文本进行 处理,在文本中每个句子的首位加上一个[CLS],末尾加上一个[SEP]。使用 BERT中的分词器对每个单词进行分类标记,提取每一个单词所对应的token向 量。为了学习诊断报告的全局特征,本文利用BERT模型对第i个报告中的每个 句子进行编码,学习对应的单词嵌入、位置嵌入和段落嵌入三个级别的向量, 将三个级别向量相加,最终通过池化层提取到诊断报告的全局表征,记为yf。 为了学习报告的局部表征,在文本编码器中设置了不同尺度的卷积,分别捕获 由1~3个单词组成的词组,这些词组作报告的局部表征,记为yf = {ytv,y^yD,其中"、b、t分别代表编码器学习到的由1~3个单词组成的词 组。
模态间交互对齐策略:针对不同模态数据间存在着语义鸿沟和异构鸿沟的 挑战,文本主要从全局表征实例语义交互、基于交叉注意力局部细粒度语义交 互和多粒度混合交互三个级别来实现影像和报告两种模态间的语义表征的对 齐,从而实现模态间语义信息交互对齐,进一步弥合胸部x线影像和报告间的 间的语义鸿沟和异构鸿沟问题。
全局表征实例语义对齐:主体思想是利用点积计算最大化影像到文本和文 本到影像正样本间的全局表征相似度,最小化负样本对间的相似度,从而使得 相同实例语义的样本在公共空间中接近,显示的对齐影像和报告间的样本表 征。各模态全局表征之间相似度计算损失如下:
s陆话)
Sit(時,y) = 6 s(x^,yQ) (4-1)
習 =迂 —
36
 
STi(yi ,Xi) = S(yGxG) (4-2)
其中,T表示温度系数, S(・)表示相似度点积计算。在此,3CRCR使用类标签信
息作为监督信息来约束影像和报告间实例语义交互,以更好的学习诊断报告表 征,构建不同模态下相同实例语义间的信息关联对齐,监督模型学习更有鉴别 力的表征,模态间的交互对齐方式表示为:
LiT(xi,yi) = Ll (SiT(x^,y^,L(:,i)') ( 4-3)
LTi(yi,xi) = Ll (STi(y-},x^),L(:,i)) ( 4-4)
'Li=i^iLiT(xi,yi) + (1-^i)LTI(yi,xi)
lg — ( 4-5)
 
其中,S表示交叉熵损失函数[42], L(:,i)表示标签信息,其中,右表示影像检索 文本的权重系数。
交叉注意力局部细粒度语义对齐:为实现胸部X线影像和诊断报告间局部 细粒度语义对齐,学习到不同模态间的细粒度语义关联,显示的匹配和对齐模 态间病例的局部细粒度语义,利用多层Transformer通过交叉注意力分别关注到 影像(或报告)的局部表征上,融合影像和报告间的隐式信息。经过注意力分 配后的影像(或报告)局部表征与报告(或影像)局部进行相似度计算,加强 影像和报告局部语义信息间的交互对齐。利用Transformer机制融合两个任务下 模态间的局部语义信息,具体计算方式为:
 
mti = softmax ((QRi (4-7)
其中,查询和键值的线性映射Q是一个可学习的矩阵。将交叉注意力融合两个 模态间的信息作为权重,分别对影像和报告的局部表征进行加权,最终得到经 交叉注意力关注的影像和报告的表征:
^CA =。(戏=1 ®TI (VXD) (4-8)
Tca = 0{Zk=i ^iT(^yi,k)') (4-9)
 
其中,0表示交叉注意力加权后跨模态嵌入的输出映射,V表示值映射。经过 交叉注意力加权后的影像和报告的局部表征仏人以及Tc/分别和编码器学到报告
和影像的局部表征进行相似度计算,并行归一化处理:
 
输入:训练影像文本对。—{X, Y} - {Xi,yi}^i,跨模态相似性矩阵S,标签矩
阵Limg — Ltxt — {li,l2,…,In} G {0,1}CXN,批次大小设置为N;参数久、右、T.
1:重复运算:
2:选取影像文本对{Xi,yi}i=i
3: 影像编码器编码U — E](X)
4: 文本编码器编码T — Et(Y)
5:学习影像嵌入Xg — Fi(V),XR — FSa(V)
6: 学习文本嵌入Ys — Ft(T),Yw — Ft(T),Yb—Wt(T),Yt — ^t(T)
7: 经过交叉注意力学习影像和报告的表征
^CA — 0 ^^^=1 ^TI ^xi,k)'), TCA — 0 (》k=1 ®IT (Vy£k))
8: 全局和局部相似度计算
s(xi,yt') s(yt,xi')
SlT(Xi ,yi ) — s(疙y月,STl(yi ,Xi ) — S(yf,XQ),
s(t, Vca) s(i,tca)
SlT — s(T,Vca),STI — s(!,Tca)
9: 损失函数计算:
'Lt=i^lLlT(yi>Xi) + (1-^i)LTi(yi,Xi)
G — 2N
^1=1(^2 iLIrT+(1-^2)i-LTl)
R — 2N
lob — ^LG + (1 — ^')LR
10: 更新参数:根据损失函数L更新编码器Ei和Et,以及参数久、右、T.
11:循环结束
 
至最大迭代次数
4.2实验结果与分析
实验细节:本文提出的检索方法是在PyTorch框架环境中完成的,实验部分 的环境是在 NVIDIA 2080 Ti 的环境里完成实验验证。所有的实验结果均是在此 环境下进行 5 次,实验结果取平均值作为最终的实验结果。实验过程中的参数分 别设置为:X = 0.6, X1 = 0.4, X2 = 0.4, t = 0.007o 为了证明本文提出 3CRCR 的有效性,与最近相似跨模态检索方法进行对比实验。
在MIMIC-CXR数据集上的实验结果:
mAP指标:模型在MIMIC-CXR数据集上的mAP实验结果如表。“I2T” 和“T2I”分别表示影像检索报告和报告检索影像的任务。从中不难看出,在“I2T” 任务中3CRCR比现有医学跨模态哈希的方法的mAP值提升了 6.31%,比CDTCR 检索方法的mAP值0.45%,在“T2I”任务中mAP值提升了 5.26%,比CDTCR 检索方法的mAP值0.34%。由表4-1和表4-2中的实验结果可发现,本文所提方 法3CRCR优于现有的医学跨模态检索的方法。
表4-1在MIMIC-CXR数据集上不同模型的mAP值
模型 SSAH DCMH DMCAH Method[4] CDTCR OURS
0.565
I2T 0.4787 0.4903 0.5312 0.5021 0.5607 2
0.547
T2I 0.4833 0.4630 0.5305 0.4947 0.5447 3
 
 
表4-2在MIMIC-CXR数据集上不同模型recall@k
方法 R@1 I2T
R@5 R@10 R@1 T2I
R@5 R@10
SePH 0.211 0.445 0.643 0.217 0.416 0.614
DCMH 0.215 0.452 0.645 0.213 0.414 0.609
CDTCR 0.252 0.466 0.657 0.236 0.438 0.625
3CRCR 0.265 0.473 0.663 0.248 0.446 0.630
 
recall@k指标:在MIMIC-CXR数据集上模型检索的recall@k结果如表4-2
40 所示。“I2T”表示影像作为查询检索诊断报告文本,“T2I”表示诊断报告作为 查询检索对应的影像。从表中不难看出,由于检索方法DCMH在检索时,只注 重影像和报告的整体表征,忽视了模态间语义信息交互,最终的检索结果性能不 高。 SePH 方法通过约束标签和哈希码分布之间的散度差异保持哈希码与原始数 据之间语义的一致性,其检索结果与DCMH相比有了一定的提升。而本文提出 方法考虑了模态不同级别的细粒度语义信息,并用类标签信息监督模态间信息交 互,模型学习到了不同模态细粒度语义表征对齐,因此检索结果提升。对比表中 各种检索方法实验结果可以看出,本文提出的3CRCR方法具有最好的性能,在 影像和诊断报告文本间的跨模态检索任务上召回率有了显著提高。
前10检索结果:不同跨模态检索方法以及本文提出的3CRCR方法在医学 数据集MIMIC-CXR上的前10检索可视化结果如下图所示,其中,影像或报告 匹配的检索结果由蓝色线框圈出,影像或报告表示检索错误的结果由红色虚线圈 出,没有被线框圈出的影像或报告表示查询到的结果与被检索为正确的蓝色线框 内的概率相比要低。可以很明显发现,图中影像检索任务中方法SePH的检索结 果存在2处错误,方法DCMH的第三个检索结果是错误的,本文提出的3CRCR 在第三个检索位置处检索结果是正确的。对于胸部 X 线影像和诊断报告间的跨 模态检索任务,本文3CRCR的检索方法的实验新能是最好的。由于医学领域中 胸部影像及诊断报告存在类内差异大,类间差异小,如:胸部 X 线影像清晰度 差、重叠影严重、整体结构相似、局部差异细微;诊断报告结构相似,语义差异 小,语义表示学习难度大等问题。
实验结果表明,本文提出的影像和报告编码器学习到了全局和局部个多级别 多度下的语义表征,通过交叉注意力获得了影像和报告的局部细粒度语义表征, 同时类标签有效促进了不同模态下相同实例不同级别间的信息交互这样可以使 模态间的一些隐式信息有效地被利用起来,弥合模态间的语义鸿沟和异构鸿沟。
 
 
图4-2不同跨模态检索方法在MIMIC-CXR数据集上前10个检索结果
4.3本章小结
本章提出了交叉注意力类监督的胸部影像和报告跨模态检索方法(3CRCR), 通过在不同级别下分别学习胸部影像和报告间的表征,利用交叉注意力分别捕获 影像和报告局部细粒度语义表征,使用多类标签信息作为监督信息约束模态间不 同尺度下的语义关联,依据胸部影像和报告间多级别多尺度的语义信息关联对齐, 实现医学领域中胸部X线影像和诊断报告间的跨模态检索。3CRCR在多类监督 标签约束下挖掘出了模态间深层次细粒度语义关联,提升了模型的语义判别能力, 因此在检索性能上有了一定的提升。在MIMIC-CXR数据集上的大量实验表明, 本文提出的3CRCR方法在面向医学领域下胸部影像和诊断报告跨模态检索任务 当中具有一定性能的提升。
5 总结和展望
5.1研究总结
医学跨模态检索是近几年新兴的一种医学信息检索技术,通过胸部 X 线影 像(诊断报告)检索对应的诊断报告(胸部X线影像),可以有效地辅助医生进 行病例的诊断判别,极大地提升了医生诊断效率。针对医学领域中跨模态检索现 存的问题和挑战,本文基于对比学习的方法,结合医学领域中实际问题,为弥合 影像和报告两种不同模态间的异构鸿沟和语义鸿沟,提出了以下两个方面的工作: 方法一提出了一中基于胸部 X 线影像图和诊断报告的双塔跨模态检索方法 (CDTCR),该方法利用利用医学影像和诊断报告中局部语义级信息交互、实例 级交互以及实例语义特征交互这三个层次的跨模态交互进行跨模态检索,学习胸 部 X 线影像图和诊断报告全局和局部特征对齐交互,利用医学影像和报告的全 局和局部细粒度语义信息指导胸部X线影图和诊断报告进行跨模态检索。
方法二为了改进模态间细粒度语义关联,挖掘深层次的局部细粒度语义信息 的问题。本文提出了交叉注意力类监督的胸部影像和报告跨模态检索方法 (3CRCR),利用编码器对不同模态内部多级别多尺度的语义信息挖掘,关注病 例在不同模态下的细粒度语义表征。语义交互模块包含全局表征实例语义交互、 基于交叉注意力局部细粒度语义交互和多粒度混合交互三个级别,分别进行影像 和报告间多级别多尺度的语义信息关联对齐,从而构建影像和报告模态间的语义 关联。使用类标签作为监督信息,约束模态间多级别的信息关联建模,提升模型 的语义判别能力,使模态学习到的语义信息更加丰富且精准。最后,在大规模医 学数据集中与其他跨模态检索方法的实验结果表明,本文提出的方法的有效性。
本文提出的方法属于跨媒体计算领域,同时为跨模态检索领域提供了新的研 究方向和思路。设计的CDTCR和3CRCR两种跨模态检索方法主要面向胸部X 线影像和诊断报告间的相互检索进行研究,这两种跨模态检索方法同时为计算机 辅助医生进行诊断提供了一个可行的方案和思想,使跨媒体计算领域下的跨模态 检索可以被应用到智慧医疗系统中,使得研究成果更加贴合人类的实际生活,本 文模型面向自然场景下的跨模态检索同样有效。
43
5.2研究展望
本文提出的方法在大规模医学数据集 MIMIC-CXR 上进行了对比实验的验 证,发现本文的方法与现有的跨模态检索的方法相比有一定效果的提升,但文章 方法仍有一些不足之处,例如:
1) 对于胸部X线影像和诊断报告的双塔跨模态检索方法,本文所使用的特 征提取方法结果虽然有一定的提升,但是未充分发掘和利用模态内部自身的一些 先验知识,可以进一步设计提取方法从而更好的利用模态自身的先验知识来进行 模态间的相同语义样本的对齐和约束。
2) 利用对比学习进行检索时负样本批次划分需要越大越好,导致对计算量 有较大的需求。可以考虑如何在对比学习的基础上改进计算方法,从而进一步加 强检索的性能和效率。
3) 对于不同模态间的跨模态检索任务,我们不应该局限于全局之间的信息 交互对齐,或局部与局部之间的信息交互,后续可以尝试在不同模态间构建全局 和局部之间的交互对齐方式,以此来模态间挖掘深层次的信息映射关系。
4) 医学领域间的跨模态检索不同于自然领域模态间的检索,病例之间在一 定程度上会存在相互影响或相互依赖的复杂关系,可以将一些病例间的信息关联 进一步融合到医学领域中跨模态检索任务当中。
44
参考文献
[1]欧卫华,刘彬,周永辉,et al.跨模态检索研究综述J].贵州师范大学学报:自 然科学版, 2018, 36(2): 7.
[2]赵晓乐.面向胸部CT图像一文本的跨模态哈希检索技术研究[D].昆明理工 大学, 2019.
[3]Zhang Y, Ou W, Shi Y, et al. Deep medical cross-modal attention hashing [J]. World Wide Web, 2022, 25(4): 1519-1536.
[4]Zhang Y, Ou W, Zhang J, et al. Category supervised cross-modal hashing retrieval for chest x-ray and radiology reports[J]. Computers & Electrical Engineering, 2022, 98: 107673-107673.
[5]Peng Y, Qi J, Huang X, et al. CCL: Cross-modal correlation learning with multigrained fusion by hierarchical network[J]. IEEE Transactions on Mul-timedia, 2017, 20(2): 405-420.
[6]Hu D, Nie F, Li X. Deep Binary Reconstruction for Cross-Modal Hashing[J]. IEEE Transactions on Multimedia, 2019, 21(4):973-985.
[7]Zhen L, Hu P, Wang X, et al. Deep supervised cross-modal retrieval[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Reco-gnition. Long Beach, CA, 2019: 10394-10403.
[8]Zhang J, Peng Y, Yuan M. SCH-GAN: Semi-supervised Cross-modal Hashing by Generative Adversarial Network[J]. IEEE transactions on cybernetics, 2020, 2 : 114.
[9]Li D, Du C, He H. Semi-supervised cross-modal image generation with generative adversarial networks[J]. Pattern Recognition, 2020, 100: 1 07085- 1 0 7085.
[10]Zhang L, Zhang Y, Hong R, et al. Full-space local topology extraction for cross- modal retrieval[J]. IEEE Transactions on Image Processing, 2015, 24(7): 22122224.
[11]Lin Z, Ding G, Hu M, et al. Semantics-preserving hashing for cross-view
45
retrieval[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. Boston, MA, 2015: 3864-3872.
[12]Li C, Deng C, Li N, et al. Self-supervised adversarial hashing networks for cross- modal retrieval[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, UT, 2018: 4242-4251.
[13]Jiang Q Y, Li W J. Deep cross-modal hashing[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, 2017: 32703278.
[14]Su S, Zhong Z, Zhang C. Deep joint-semantics reconstructing hashing for large- scale unsupervised cross-modal retrieval[C]. Proceedings of the IEEE international conference on computer vision. Seoul, Korea, 2019: 3027-3035.
[15]Yu J, Zhou H, Zhan Y, et al. Deep graph-neighbor coherence preserving network for unsupervised cross-modal hashing[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(5): 4626-4634.
[16]Ji Z, Wang H, Han J, et al. SMAN: Stacked multimodal attention network for cross- modal image-text retrieval[J]. IEEE transactions on cybernetics, 2020, 52(2): 1086-1097.
[17]宣瑞晟,欧卫华,宋浩强,等.图约束的半监督对抗跨模态检索方法研究[J]. 贵州师范大学学报: 自然科学版, 2019, 37(4): 86-94.
[18]Zhang J, Peng Y, Yuan M. SCH-GAN: Semi-supervised cross-modal hashing by generative adversarial network[J]. IEEE transactions on cybernetics, 2018, 50(2): 489-502.
[19]Ye Z, Peng Y. Multi-scale correlation for sequential cross-modal hashing learning[C]. Proceedings of the 26th ACM international conference on Multimedia. New York, American, ACM, 2018: 852-860.
[20]Xu X, Song J, Lu H, et al. Modal-adversarial semantic learning network for extendable cross-modal retrieval[C]. Proceedings of the 26th ACM international conference on Multimedia. New York, American, ACM, 2018: 46-54.
[21]Chen H, Ding G, Liu X, et al. Imram: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]. Proceedings of the IEEE
46
conference on computer vision and pattern recognition. Seattle, WA, American, 2020: 12655-12663.
[22]Lu H, Fei N, Huo Y, et al. COTS: Collaborative two-stream vision-language pretraining model for cross-modal retrieval[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans, LA, American, 2022: 15692-15701.
[23]Rasiwasia N, Costa Pereira J, Coviello E, et al. A new approach to cross-modal multimedia retrieval[C]. Proceedings of the 18th ACM international conference on Multimedia. Seoul, Republic of Korea, 2010: 251-260.
[24]Andrew G, Arora R, Bilmes J, et al. Deep canonical correlation analysis[C]. International conference on machine learning. PMLR, 2013: 1247-1255.
[25]Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[EB/OL]. arXiv, 2017. https://doi.org/10.485 50/arXiv.1707.05612.
[26]Gu J, Meng X, Lu G, et al. Wukong: 100 million large-scale chinese cross-modal pre-training dataset and a foundation framework[J]. Advances in Neural Information Processing Systems, 2022, 35: 26418-26431.
[27]Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[C]. Proceedings of the European conference on computer vision, ECCV, Munich, Germany, 2018: 201-216.
[28]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems. Red Hook, NY, American, 2017, 30.
[29]Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. Proceedings of naacL-HLT, 2019, 1: 2.
[30]Oord A, Li Y, Vinyals O. Representation learning with contrastive predictive coding[EB/OL]. arXiv,2018. https://arxiv.53yu.com/abs/1807.03748.
[31]Kim W, Son B, Kim I. Vilt: Vision-and-language transformer without convolution or region supervision[C]. International Conference on Machine Learning. PMLR, Jeju Island, Republic of Korea, 2021: 5583-5594.
47
[32]Chen Y-C, Li L, Yu L, et al. Uniter: Universal image-text representation learning[C]. Proceedings of the Computer Vision-ECCV. Seattle, American, 2020: 104-120.
[33]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]. International conference on machine learning. PMLR, Jeju Island, Republic of Korea, 2021: 8748-8763.
[34]Huo Y, Zhang M, Liu G, et al. WenLan: Bridging vision and language by
large-scale multi-modal pre-training[EB/OL]. arXiv, 2021. https://arxiv.53yu. com/abs/2103.06561.
[35]Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]. International conference on machine learning. PMLR, Vienna, The Republic of Austria, 2020: 1597-1607.
[36]Wang Z, Wu Z, Agarwal D, et al. Medclip: Contrastive learning from unpaired medical images and text[EB/OL]. arXiv, 2022. https://doi.org/10.4855 0/arXiv.2210.10163.
[37]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, American, 2016: 770-778.
[38]Shaikh M A, Duan T, Chauhan M, et al. Attention based writer independent verification[C]. 17th International Conference on Frontiers in Handwriting Recognition, ICFHR. Dortmund, Federal Republic of Germany, 2020: 373-379.
[39]He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. Seattle, American, 2020: 9729-9738.
[40]Johnson A E, Pollard T J, Greenbaum N R, et al. MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs[EB/OL]. arXiv, 2019. https://arxiv.53yu.com/abs/1901.07042.
[41]Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Advances in neural information processing systems, 2019, 32.
48
[42]Wang F, Zhou Y, Wang S, et al. Multi-Granularity Cross-modal Alignment for
Generalized Medical Visual Representation Learning[EB/OL]. arXiv, 2022.
https://arxiv.53yu.com/abs/2210.06044.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9182.html

上一篇:基于 CT 序列空间的三维肺部医学影像 研究

下一篇:没有了

相关标签: