1. 网站地图
  2. 设为首页
  3. 关于我们


面向医学影像智能化诊断的胸片三层结构模 型读片知识图谱研究

发布时间:2023-09-22 16:14
面向医学影像智能化诊断的胸片三层结构模型读片知识图谱
研究
第1 章 绪论
1.1研究背景与意义
医学影像检查是现代临床医学的重要组成部分,为临床疾病筛查、病灶的定 位及定性诊断、临床治疗方案的选择、疾病的分期及预后评估等提供了重要依据[1]。 影像检查报告分为检查所见和检查印象,检查所见主要是对图像中病变区域中的 病变特征和位置描述;检查印象是对检查所见内容通过临床经验的总结,根据其 描述的特征和患者的相关信息得到的诊断结果。然而,检查所见中包含所有对异 常的描述,对于医生的诊断决策提供重要依据。由于检查所见的书写具有很强的 专业性,需要有经验的医生来完成,但专业的影像科医生资源有限,难以满足不 断增长的诊断需求[2],所以如何在保证准确性的情况下,提高诊断效率、减轻医 生负担成为了严峻的挑战[3]。
目前,人工智能(Artificial Intelligence, AI)在医学智能化领域中扮演着不
可替代的角色。近年来基于深度学习的人工智能技术在医学图像分析[4,5]以及自然 语言处理[6,7]方面取得的突出研究进展,研究人员寄希望于人工智能技术实现医学 影像检查所见和检查印象的自动生成,随着研究的深入,人工智能技术在医学影 像智能诊断中取得了很好的效果,甚至在一些方面优于影像科医生[8]。
结构化的医学知识是人工智能技术成功实现医学智能化的前提,知识图谱技 术作为一种从海量文本和图像中抽取结构化知识的手段,它通过对专业知识的梳 理、将异构数据转变成计算机可识别语言的优势[9],同时也正在推动人工智能的 发展。面对如何提高影像科医生检查报告书写效率和规范性等问题,构建知识图 谱辅助报告生成就显得尤为重要,因此,利用知识图谱实现智能化诊断逐渐成为 研究的关键问题[10,11]。
知识图谱是实现智能化医学影像的关键技术之一,目前,参与影像智能化诊 断任务中的知识图谱结构简单、覆盖面局限,导致诊断结果忽视异常特征的具体 位置。另外,由于医学影像知识复杂多样,这种结构简单的图谱缺少对整体知识 框架更细致的梳理,难以准确的表达医学图像中的具体特征。针对医学知识术语 多样化、知识分散、知识结构复杂和质量参差不齐、知识图谱难以构建等特点, 本文将模拟影像医生读片思路,提出“病变区域-病变特征-细节特征”的三层结 构模型的读片知识图谱(Radiologic Interpretation Knowledge Graph, RIKG)用来 指导智能化诊断研究。
1.2AI 在医学领域的研究现状
近年来,深度学习、大数据等技术的发展,人工智能(AI)已经渗透到人类 生活的各行各业,成为各个领域的研究热点。基于深度学习的AI技术已经在语 音[12]、视频[13]、图像[14]等领域实现了产品落地。特别是在医学领域,AI正在深 刻地改变着医学影像学的当前现状以及未来发展趋势,旨在最终实现医学影像学 人工智能诊断(Artificial Intelligent Diagnosis of Medical Imaging, AIDMI)的图像 分析研究一直以来都是医学影像人工智能研究的重中之重[15]。 Liu 等人[16]提出一 个领域感知的胸部X线报告自动生成系统,对比其他方法生成的结果,其可读性 和准确性都得到了明显提升;侯代兵等人[17]借鉴当前领域模型优点提出基于医学 图像报告自动生成的技术,利用计算机分析图像生成检查报告,该方法增强了在 报告生成的准确性、完整性等方面表现。但是,基于这种“端到端”方式得到的 结果,仍然面临准确性、专业性与可解释性等问题的挑战。为进一步解决上述问 题,研究人员开始致力于通过医学影像领域的先验知识为基础,构建领域知识图 谱与图像分类算法相结合[18,19],通过利用专业的领域知识指导检查报告的图像自 动分类标注以及图像的自动分类训练,实现医学影像的智能化诊断。这种以领域 知识图谱所驱动的人工智能(AI)研究有很好的表现,在一定程度上提升了智能 化诊断的可解释性、专业性和准确性,从而进一步实现了工作流程增速,解决了 资源短缺,降低了护理成本。
1.3知识图谱的研究现状
1.3.1知识图谱的构建现状
随着信息技术的发展,在各个领域不同的阶段中都会产生大量数据和信息的 情况,这些数据和知识正是不同领域走向信息化的必要资源,但因其冗余数量庞 大、关联性弱、分散分布导致无法直接获取有用信息[20]。因此,为了在海量的知 识和数据中获取有效信息,并建立完整的关系,谷歌提出了“知识图谱”的概念[21]。 近几年,随着大数据(Big Data)技术、机器学习(Machine Learning,ML)技术 和深度学习( Deep Learning,DL )技术的发展,知识图谱构建技术收到了越来越 多的关注。
知识图谱构建技术主要分为两类:一类是传统意义上的的知识图谱构建技术, 包括人工构建知识图谱[22] 、语义网络技术( Semantic Network,SN ) [23, 24]和基于 Web的图谱构建技术[25,26];另一类是基于大数据和深度学习的方法对多渠道获取 的数据进行知识提取、命名实体识别、关系提取[27-29]。人工构建知识图谱通过专 业研究人员分析、总结数据,并结合先验知识来手动建构知识图谱;语义抽取技 术采用标准语义模型对知识进行建模,利用自然语言处理( Natural Language Processing, NLP)的方法从文本中提取实体和关系[30];基于Web的知识图谱构建 技术,则利用大数据技术的方法从网络中收集大量结构化数据并分析[31];而基于 深度学习的知识图谱构建技术则利用深度神经网络模型实现实体和关系的抽取, 用连续向量的方式来表示实体和关系,可以很好地表示相关的概念以及它们之间 的联系。
1.3.2知识图谱的应用现状
知识图谱的基本组成是由“实体-关系-实体”构成的三元组,目前,知识图 谱可以分成垂直领域知识图谱和通用知识图谱两种类型[32],现阶段应用比较广泛 的通用知识图谱主要有谷歌的 Knowledge Graph[33]、 DBpedia[34]、 YAGO2[35]、 XLore、 Wikidata[36 ]等。
虽然通用知识图谱涵盖了大量的垂直领域知识,现阶段由于领域知识图谱受 到了挖掘深度和质量的限制[37],对于相对复杂精细的领域知识并不能被比较全面 的表述出来。但垂直领域知识图谱在专业知识精准表述上的效果比通用知识图谱 表现更优秀,从而让领域知识图谱得到了广泛的认可,并且越来越多的研究团队 将研究方向转移到领域知识图谱的构建及应用中。
谷歌在2012年正式提出了知识图谱的概念,其主要目的是为了提升检索质量
[38]。随着知识图谱的应用发展,已广泛应用于医疗[39]、影视[40]、历史[41]、制造[42]、 问答系统[43]等领域。我国对知识图谱的研究也逐渐起步,先后出现了知心、知立 方、中科院构建的医学知识库(NKIMed) [44]及北京大学和郑州大学联合构建的 医学知识图谱(CMeKG)等重要研究成果。现阶段医学知识图谱是实现智慧医疗 的基石,已成功应用在医疗知识检索[45]、电子病历智能化[46]、医疗质量管理智能 化[47]和临床决策支持[48]等场景。
1.4构建医学读片知识图谱的挑战
随着医疗知识图谱在人工智能领域中的应用得到了广泛的认可,逐渐成为研 究人员关注的焦点。然而,对于医疗领域知识图谱的构建并没有得到快速发展, 归根结底在医疗知识图谱构建中仍然存在多种问题和挑战。
( 1 )数据利用率低 我国的医疗机构在信息化发展过程中,各个单位已经积累了大量的电子医疗 数据,但由于数据存储的形式复杂多样,包括:非结构化、半结构化和结构化数 据。然而,实现知识图谱自动化构建,则需要计算机对结构化数据进行分析,对 于其他异构数据的应用仍比较困难。因此,这些丰富的数据只在停留在部分表层 的应用中,难以在深度和广度等方面继续推进,导致现有丰富的医疗数据应用率 不高[49]。
( 2 )缺少专业的公开中文医疗语料库 大量的高质量医疗语料是成功构建医疗知识图谱的基础,但目前相比于英文 的语料库,中文却少有公开的大型医疗语料库,致使专业的中文医疗信息无法得 到共享,无法使相关信息得到整合,并且增加了研究人员对医疗知识图谱研究的 难度和成本,导致中文领域知识图谱构建效率低、发展慢。
( 3 )中文文本处理工具缺乏 在处理英文文本时,由于英文是以一个单词作为一个单位,并且用空格来分 隔两个单词。但由于中文在医疗语言使用的特殊性,例如汉字、标点符号、英文 字符、数字等多种字符在文本中混合出现,并且存在大量的简称、代词以及医学 中存在的专有名词,由此导致大部分处理英文的文本工具不适用于处理中文文本, 无法实现准确的提取出实体和关系。在这种情况下,则需要人为的将文本中的关 键信息用分隔符划分出多个词语。
本研究以构建基于“病变区域-病变特征-细节特征”的三层结构模型读片知 识图谱,并应用于检查报告生成作为本文的创新性研究。因此,为了保障读片知 识图谱构建的准确性和专业性,我们以专业影像科医生作为主,计算机构建为辅, 实现人机结合的半自动构建,既保障了准确性和专业性,也在一定程度上提升了 构建速度。
1.5论文的主要内容
本文共分为五个章节,每个章节的具体研究内容如下: 第一章主要介绍了知识图谱的研究背景及意义,知识图谱构建方法以及应用 的国内外研究现状,并通过对现状分析总结得到现有知识图谱的问题,并以此为 经验提出本文在知识图谱中的新想法和研究思路。
第二章从医学知识获取、医学知识处理、知识图谱构建以及存储在Neo4j图 数据库中等四个方面对读片知识图谱的构建进行了详细的概述,并在此基础上提 出了基于“病变区域-病变特征-细节特征”的三层结构模型的知识表示方式,三 层结构模型的提出是汲取对其他研究的经验并对影像检查报告进行专业的分析得 到的,该模型通过模拟影像科医生读片思路,对专业知识表达更详细、更全面、 更具有逻辑性,并在其中添加了病变位置,这也是本研究的主要创新点。
第三章主要介绍了三层结构模型读片知识图谱在规范化检查所见生成任务中 的应用,通过设计具有规则性的调用接口,将生成的结构化数据与保存在 Neo4j 图数据库中读片知识图谱节点进行匹配,按照匹配结果调用对应属性,拼接得到 规范化的检查所见。生成的规范化检查所见经过影像科专业医生对其流畅性和准 确性的评价,结果证明基于三层结构读片知识图谱指导生成的检查所见达到了临 床医生的需求,具有一定的临床使用价值。
第四章是以第三章实验得到的规范化检查所见作为实验数据基础,并结合原 始检查来训练检查印象生成模型。经过专业影像科医生对其准确性评价,实验结 果表明以规范化检查所见作为训练数据得到的检查印象,其规范性得到一定约束, 但准确性仍需要在日后工作中不断提升。
第五章是对本文研究内容的总结与展望,总结在实验过程中的不足与欠缺, 同时也对这些不足和欠缺提出了初步完善的想法,并对本研究在今后的工作中提 出了新的展望。
第2 章 基于三层结构模型读片知识图谱的构建
由于医学具有专业性、复杂性等行业特征,近几年来,在智慧医疗领域,先 验知识发挥出越来越重要的作用。将先验知识以知识图谱的形式,与人工智能相 融合,成为医学与计算机发展交叉学科研究值得讨论的话题。本章将介绍一种创 新的图谱构建形式,即三层结构模型读片知识图谱,并介绍该知识图谱在智慧医 疗领域不可替代的应用价值。
2.1三层结构模型构建及可视化存储
针对医疗数据专业性强、结构复杂等特点,本研究为保证三层结构模型读片 知识图谱构建的准确性和专业性,通过以专业医生为主导力量进行构建。从专家 的角度梳理医学知识,依据影像科医生读片思路通过自下而上构建方式。图谱构 建的主要流程为数据获取,利用教科书、医学百科知识、国际疾病分类 -10(International Classification of Diseases ,ICD)以及影像检查报告作为构建胸部后 前位片三层结构模型读片知识图谱数据来源,特别是影像检查报告,由于其作为 临床诊断中的重要数据,所以报告中存在大量对病变异常描述的专业知识,因此 作为构建图谱的主要数据来源;数据分析是分析获取数据中的关键信息,通过专 业医生结合先验知识对有歧义信息和含有指代的信息的知识进行人工的融合;知 识加工是将提取的关键知识根据实际应用需求进行关系、属性设计,并在实际应 用过程中挖掘隐藏信息来补全和更新读片知识图谱;将处理好的知识匹配到所属 本体层中,按照医生的读片思路进行层次化梳理得到“病变区域-病变特征-细节 特征”三层结构模型,具体流程如图 1 所示。
 
 
图1 三层结构模型读片知识图谱构建流程
Fig 1 Construction process of Radiologic Interpretation Knowledge Graph based on three-layer structure model
2.1.1医学知识获取与分析 以往专业的医学知识获取主要是通过爬虫爬取医疗网站[50]的数据或直接与 医生交流得到想要的信息,但这些信息获取的内容过于狭窄片面、结构复杂多样, 限制住了领域知识图谱的构建和拓展,无法满足实际的临床需求。然而,读片知 识图谱的构建,需要通过分析特定检查项目的相关专业知识。在面对医学数据庞 大、存储结构多样、涉及众多复杂的临床知识时,分析梳理一个全面、精细、规 范专业的领域知识图谱尤为重要。本文在读片知识图谱时,检查报告、教科书、 医学百科和 ICD-10 等作为三层结构模型读片知识图谱的数据来源,其中利用安 徽影像云平台获取经过脱敏处理后的检查报告为主要的数据来源;ICD-10根据疾 病的特征、病变位置等特征将疾病分类,并且作为专业的临床知识辅助知识图谱 的构建。
在数据分析时,首先通过专业影像科医生经验对非结构化数据中的大量检查 报告进行关键信息的提取,然后将教科书和结构化数据“国际疾病分类-10
(ICD-10)”作为参考,补充和规范提取到的信息。再将提取后的关键信息进行 分类,医生根据实体信息的含义将其分为病变区域、病变特征、细节特征三个本 体层,在检查报告、教科书、医学百科和 ICD-10 中出现的病变位置信息作为诊 断的重要参考依据,将作为特殊实体类型加入到细节特征本体层中。
其中,检查报告纳入排除标准包括:
( 1 )纳入标准:年龄大于 3 岁的检查报告。
( 2 )排除标准:仰卧位片报告,包含床旁报告;年龄小于等于 3 岁的检查报 告及不完整的报告。
2.1.2医学知识融合
由于获取数据的来源不同,导致知识的质量良莠不齐,并且受每个医院书写 要求以及医生主观因素的影响,影像医生检查报告书写各不相同,导致在提取关 键知识过程中存在意思相同但表述不同的情况,例如:肺纹理增粗与肺纹理增强、 小片状影与点片状影、结节状影与小结节。在临床中其实表述的意思都相同,但 这些表述没有得到规范,在三层结构模型读片知识图谱构建中存在一定困难,需 对有歧义的描述进行规范,解决这类问题,需医生对其进行专业的合并,提高获 取到的医学知识的规范性,例:将“肺纹理增粗与肺纹理增强”规范成“肺纹理 增粗”、“小片状影与点片状影”规范成“斑片状影”、“结节状影与小结节” 规范成“结节状影”。此外,实体作为构建的图谱中是基本的元素,而本体层的 设计是对与之对应实体的抽象描述[51],例如:在胸片读片知识图谱设计中,(1) 提取的“肺纹理、肋膈角、心影、膈面、气管及纵隔”等实体信息,医生通过根 据实体信息的特点,可以将此类实体概括为“病变区域”;(2)“大片状影、索 条状影、结节状影、变钝、空洞影、胸膜增厚”等实体信息抽象概括为“病变特 征” ;(3)“境界模糊、类三角形、类圆形、薄壁、呈s形”等实体信息抽象概 括为“细节特征”;(4)“纵隔上部、左肺、左肺上野、左侧第一前肋”等实体 信息可以抽象概括为“病变位置”。将获取到的不同医学实体信息根据其不同特 点匹配到对应的本体层中,才能构建一个完整的三层结构模型读片知识图谱。
2.1.3医学知识补全与更新
三层结构模型读片知识图谱初步构建后,由于在提取实体的过程中,忽略了 出现频率小的信息,会存在实体缺失的情况,所以需要对三层结构模型中的知识 在应用过程中进行检验、评价、补全与更新。在实际应用过程中,我们通过分析 专业医生和用户的使用反馈意见、统计检查报告中出现新关键信息的频率以及其 他来源的新数据,将隐藏或遗漏的专业知识添加到三层结构模型中,有针对性的 将其与类似节点合并或创建一个新节点匹配到对应的本体层。在补全和更新中完 善图谱,逐渐实现知识图谱的全面性,提升三层结构模型读片知识图谱应用的准 确性。
2.1.4三层结构模型的构建
医生在描述医学图像的病变特征时,书写的检查报告中同时包含多个关键信 息,并存在一定的层次关系,例如:左侧肺野可见大片状高密度影,呈类三角形 样改变。其中将肺野(肺实质)定义为病变观测区域,大片状高密度影为病变特 征,类三角形为细节特征,左侧为病变位置。为了实现根据医生读片思路表述这 种层次化的结构,在现有结构模型的基础上将检查报告中的关键信息抽象出“病 变区域、病变特征、细节特征”3 个本体层并构建了一个“病变区域-病变特征- 细节特征”三层结构模型如图2 所示,为了提高图谱的全面性,将检查报告中蕴 含的病变位置信息作为细节特征特殊的实体加入到三层结构模型中,丰富了知识
 
图 2“病变区域 -病变特征-细节特征”三层结构模型
Fig 2 Three-layer structure model of "lesion area-lesion feature-detail feature"
2.1.5三层结构模型可视化存储
可视化是将知识间抽象的关系用图形的形式更好的表现出来。图表示逐渐成 为表示和存储知识图谱的首选数据模型,非关系型的数据库NoSQL应运而生[52], 它可以有效地存储和恢复彼此连接的大量数据[53]。其中Neo4j图数据库因具有很 高的性能、较强的灵活性以及可扩展性[54],因而得到了广泛关注和应用。
Neo4j 图数据库其本质上是属性图,在存储数据时更易于直观的展示,可以用 图的方式对大部分场景进行描述,作为属性图具有以下五种特点:(1)图模型中 有节点和关系;(2)图模型中的节点可以设置属性;(3)节点的标签数量可多 可少;(4)图模型中的关系也可以设置属性;(5)关系连接两个节点,并且有 名字和方向。从宏观角度来看,Neo4j在存储图结构时只有“节点(Node)和关 系(Relationship)”两种类型。其中,图中的“节点”可以不设置或设置多个属 性(Property ),每个节点可以设置相同或不同的标签用来区分不同类型的节点, 但属性没有特殊类别要求。图中的“关系”通过方向来连接起始节点和终止节点, 此外关系也可以设置属性和标签。
由于Neo4j图数据库的多种优秀特性,实现了专业数据库级别的存储。本文 利用Neo4j的Cypher语句将三层结构模型中的实体、关系、属性添加到图数据库 中,实现了三层模型结构读片知识图谱的构建和可视化存储,直观展示图谱中的 实体和层级关系。
2.2胸片知识图谱构建及可视化存储
2.2.1实体设计
以胸部后前位片为例,先通过分析胸部后前位片的检查报告,病变区域作为 读片知识图谱的第一层,包括:胸廓、气管及纵隔、肺纹理、肺实质、肺门、心 影、主动脉、膈面、肋膈角、胸膜及胸腔、骨骼共 11个实体;病变特征为读片知 识图谱的第二层,为病变区域的具体的病变特征,例如:增多、减少、大片状影、 团块影、索条状影等;细节特征为读片知识图谱的第三层,为病变特征的在形状、 大小、薄厚、位置等方面更具象的表述,例如:类圆形、类三角形、薄壁、厚壁、 毛刺状、左侧等。
 
与结构简单的图谱相比,三层结构增加了病变位置,并细化了病变特征,涵 盖了肺部几乎全部的特征和病变位置,更加精细、准确,可以满足胸部X线临床 应用的大部分需求。特别是生成的检查所见时加上病变位置后实现了疾病的定位, 为医生提供更细致、准确的检查报告。胸部后前位片三层结构模型如图3 所示。
 
图 3 胸部后前位片三层结构模型
Fig 3 Three-layer structure model of chest X-ray
2.2.2关系设计
在胸部后前位片读片知识图谱构建中,需要对在相同本体层下的实体创建关 系和不同本体层之间创建不同的关系。考虑到三层结构模型的层次结构,通过专 家人工将重点针对知识间的纵向关系设计[55]。关系类型分为病变特征、细节特征、 病变位置、病变位置子节点和细节位置五类,用于连接病变区域与病变特征、病 变特征与细节特征、病变特征与病变位置以及病变位置的子节点。具体关系设计 如表 1 所示。
表 1 读片知识图谱主要关系设计
Tab 1 Relationship design of Radiologic Interpretation Knowledge Graph
关系类型 中文名称 关系示例
feature 病变特征 <肺实质f病变特征f大片状影〉
detail feature 细节特征 <大片状影f细节特征f外髙内低〉
location 病变位置 <外髙内低f病变位置f左肺〉
child 子节点 <左肺f子节点f左肺上野〉
detail location 细节位置 <左肺上野f细节位置f左肺上野外带〉
2.2.3属性设计
读片知识图谱的属性需要结合具体使用场景来定义,以胸部后前位片读片知 识图谱为例。根据规范化检查所见生成要求,首先对病变区域的属性进行设计, 包括:“名称、编码、层级、生成顺序、同级生成顺序、正常描述、异常描述、 关键词”等属性,具体属性及示例如表2 所示。然后通过分析检查报告得到该区 域的病变特征及细节特征,并根据不同任务的需求来定义其属性,除名称编码层 级等这些基本属性之外,病变特征和细节特征还新增了“分隔符”,删掉了“正 常描述”,虽然二者属性设计相同,但属性值会有所差别,具体属性及示例见表 3、表 4所示。病变位置下的节点属性设计时,要定义病变位置特有的属性,如“全 部子节点选中描述、部分子节点选中描述、无子节点选中描述、排在第一位的病 变位置描述、排在中间的病变位置描述、排在最后的病变位置描述”等属性,具 体属性及示例如表 5 所示。
表 2 病变区域属性及属性值设计
Tab 2 Property and property value design of lesion area
属性类型 中文名称 属性值示例
name 名称 肺实质
id 编码 1504d525ccab40569bf39a5ee7711f43
level 层级 1
order 生成顺序 5
generateorder 同层级生成顺序 4
normaldescription 正常描述 肺实质未见明显异常
abnormaldescription 异常描述 肺野
keywords 关键词 肺野
 
表 3 病变特征属性及属性值设计
Tab 3 Property and property value design of lesion feature
属性类型 中文名称 属性值示例
name 名称 大片状影
id 编码 5b5d0f0634ab400caa373558a3023aca
 
 
level 层级 2
order 生成顺序 6
generateOrder 同层级生成顺序 7
abnormaldescription 异常描述 见大片状高密度影
delimiter 分隔符
keywords 关键词 大片状影
 
表 4 细节特征属性及属性值设计
Tab 4 Property and property value design of detail feature
属性类型 中文名称 属性值示例
name 名称 外高内低
id 编码 abaf37c90daa4005965f7f81a606529d
level 层级 3
order 生成顺序 7
generateOrder 同层级生成顺序 1
abnormaldescription 异常描述 呈外高内低状
delimiter 分隔符
keywords 关键词 外高内低
 
表 5 病变位置属性及属性值设计
Tab 5 Property and property value design of lesion location
属性类型 中文名称 属性值示例
name 名称 左肺
id 编码 4c75a6290ede4735bd7b83257cdc8e
level 层级 5
order 生成顺序 3
generateorder 同层级生成顺序 1
allchildrendescription 子节点全部选中描述 左肺
partialchildrendescription 子节点部分选中描述 (选中的子节点名称)
nochildrendescription 无子节点选中描述 左肺
 
delimiter 分隔符
firstlocationdescription 排在第一位的病变位置描述 右侧第5
middlelocationdescription 排在中间的病变位置描述 5
lastlocationdescription 排在最后的病变位置描述 5 肋骨
2.2.4 可视化存储
 
基于“病变区域-病变特征-细节特征”的胸片三层结构模型读片知识图谱构建 完成后,将所有信息利用 cypher 语句导入到 Neo4j 图数据库中。其中病变区域, 包括:胸廓、气管及纵隔、肺纹理、肺实质、心影、主动脉、肺门、胸膜及胸腔、 膈面、肋膈角、骨骼等共11 个;病变特征包括:欠居中、增多、减少,大片状影、 团块影,欠光滑,变钝等共96 个;细节特征包括:类圆形、类三角形、外高内低、 左肺、右肺等共 173个。图4 为基于三层结构模型胸片读片知识图谱可视化展示, 从图中可以看出一个病变区域的实体与多个病变特征进行关联,并且一个具体的 病变特征可能关联着不同的细节特征。因此,不同症状之间的组合可以表示该病 变区域相同或不同的疾病,基于读片知识图谱,并根据相应的病变特征,结合临 床诊断方法得出疾病信息。知识图谱的可视化便于知识的拓展,并在检索过程中 发现隐藏的“知识孤岛”[56]。
 
 
 
图4胸部X线读片知识图谱可视化展示
Fig 4 Visualization of Radiologic Interpretation Knowledge Graph of chest X-ray
2.3知识图谱的应用价值
目前,在智能化诊断领域,研究人通过将医学影像领域的知识图谱与图像分 类算法相结合,应用于检查所见和检查印象生成任务中,实现X线影像中所有病 变的结构化分类的智能化读片。但这种方式只是简单的提供给医生一份是否存在 异常的标签作为检查报告[57],并不能满足临床需要[58]。因此,本文提出了三层结 构模型读片知识图谱用于将这种结构化分类结果转变成准确的规范化检查所见文 本,并完成检查印象的生成,可以更好的适用于医学影像实际临床决策诊断。
2.3.1检查所见生成
影像学检查所见是临床医生对病变区域、病变特征和病变位置的描述,对患 者病变情况的描述,在治疗决策的过程中起到不可或缺的支撑作用[59]。检查所见 由多种信息组成,因此,我们参考了检查所见的组成元素,构建了三层结构读片 知识图谱,并将节点类型分成病变区域、病变特征和病变位置。根据结构化数据 利用具有调用规则的接口与知识图谱的节点属性信息交互,由此可以将属性值拼 接成规范化检查所见。这种基于规则的检查所见生成方法,相较于“端到端”, 更具有专业性、可解释性和实用性。
2.3.2检查印象生成
影像学检查印象是医生针对影像学表现及其他临床信息所得出的综合性结论。 检查印象的书写,往往受到影像学检查所见、患者其他临床背景信息以及医生主 观因素的综合影响[60]。加之影像学专业的特殊性,针对检查报告的同一疾病,存 在多种正确且不同的表述方式,因此,本文在检查印象生成中,加入了以三层结 构知识图谱为基础生成的规范化检查所见作为生成模型的训练数据,生成的结果 在多种不同表述的问题中得到一定约束。将知识图谱融入到智能化诊断领域,使 得决策符合医学临床思维,也更好的解决了深度学习应用于医学领域的“黑箱” 问题。
2.3.3其他应用
除此上述应用价值外,三层结构知识图谱在指导深度学习算法训练领域,也 具有重要的应用价值。三层结构模型读片知识图谱作为专业知识,通过调用其特 定属性,还可以指导多种智能化诊断领域的深度学习算法模型进行训练,例如智 能化图像分割、图像分类、病变目标检出等。在图像分割任务中,将影像学图像 输入到预先训练好的图像分割模型中,得到与三层结构模型的读片知识图谱中病 变区域一致的解剖分割结果,即明确病变位置。在图像分类任务中,根据读片知 识图谱中叶子节点的样本量情况,采用图像分类模型的方法预测出疾病分类的评 价指标,若评价指标20.8,选择进行直接病变定性;若评价指标V0.8,则通过目 标检出进行病变定性;在此基础上,判断病变有无位置信息,采用直接获取对应 的结构化检查所见或通过热力图与分割结果叠加获取到病灶位置信息实现病变定 位。
2.4本章小结
本章通过对医学知识的获取、医学知识融合、医学知识补全与更新、知识可 视化存储四个方面来介绍基于“病变区域-病变特征-细节特征”三层结构模型读 片知识图谱的构建。同时基于上述内容,本章节以胸部后前位片为例,根据实际 需求对胸片读片知识图谱的关系和属性进行了设计,构建了一个三层结构模型的 胸片读片知识图谱,利用Neo4j图数据库将胸片读片知识图谱进行可视化存储, 为后续医学影像报告生成任务提供专业知识的指导。除此之外,对本文构建的知 识图谱应用价值进行了简要分析。
第3 章 胸片检查所见生成算法研究
医学影像报告的自动生成旨在通过智能化分析医学影像,从而得到自然语言 的影像报告文本,是智慧医疗和计算机辅助诊断(Computer-aided Diagnosis, CAD) 中的热点问题[61]。在智能化诊断领域,由深度学习算法得出的实验结果,需要通 过“结构化-规范化”的过程,实现结构化文本到自然语言文本的过渡,以达到满 足日常可读性的需求。本章主要介绍了基于三层结构模型读片知识图,通过调用 接口规则设计实现规范化检查所见的生成。
3.1基于规则检查所见生成算法设计
为了实现从结构化数据转变成规范化的检查所见,我们通过设计一个具有规 则的调用接口,用来将结构化数据与 Neo4j 图数据库中存储的读片知识图谱相交 互,从而实现检查所见的规范化生成。
3.1.1一级节点调用规则设计
首先通过获取相应的检查项目,得到对应的读片知识图谱的一级节点列表, 运用调用接口将输入的结构化数据与保存在Neo4j中的读片知识图谱节点进行分 析匹配,若第一级节点(病变区域)没有被匹配,调用接口则调用该节点的 "normalDescription"属性,作为规范化检查所见中的正常描述;如果第一级中的 节点成功被匹配,调用接口则调用该节点的“ abnormalDescription "属性,并继续 获取该节点下设的第二级节点(病变特征)列表。一级节点调用流程如图 5 所示。
 
 
图5 一级节点调用流程
Fig 5 First-level nodes calling process
3.1.2二、三级节点调用规则设计 获取第二级节点列表后,判断节点的选中情况,调用接口获取匹配节点的
“ abnormalDescription "属性作为规范化检查所见描述的内容。第二级节点分析完 成后,继续利用调用接口判断被匹配的第二级节点是否下设第三级节点(细节特 征)。调用流程如图8 所示。
若存在第三级节点,则获取三级节点列表,判断节点匹配情况,利用调用接 口获取该匹配节点的“abnormalDescription"属性。若存在病变位置,则获取并病 变位置列表,分析其匹配情况,利用调用接口获取匹配成功的病变位置的 "allChildrenDescription "或"noChildrenDescription "或"partialChildrenDescription", 其中,"allChildrenDescription"的意思是在病变位置这类节点中,全部子节点选 中的描述,例:在胸片读片知识图谱的病变位置中,左肺下设了"左肺上野、左 肺中野、左肺下野”三个子节点,若这三个子节点同时被选中,则调用该属性; “noChildrenDescription"意为,在病变位置中某个节点的子节点没有被选中的描 述, 例: 左 肺下设的 三个 子节 点没有 被选 中, 则调 用该 属性 ;
“partialChildrenDescription"是指在病变位置中,选择部分子节点的描述,例: 左肺的三个子节点中,只选择了其中一个或两个节点,此时则需要调用该属性。 第二、三级节点调用流程如图6 所示。
调用接口将结构化数据与Neo4j中的读片知识图谱交互完成后,将匹配到的 节点按照“order"和“generateOrder”属性值,从小到大拼接排列被匹配到的节 点对应属性值,由此可以得到一份规范的检查所见。
 
 
 
返回空字符串
结束
NO
NO
NO
判断当前节点
»=三级 尹点个晒
根据二®节点荻 取三级节点列裏
嗖=子节育
、血? /
循环BTO子节 点 c:=0
、总数”
判時节点是否 被选中
循环遍历三级节 点列表,逐个分
析.j:=0
NO /断当葡玉
/鍛节剛应 -awi哭系
\节点/
初始化该位置节 点的默认描述以 及部分选中的描 述为空
累加.返回当前 节点的异常描述
初始化节点描述|口病变位置
YES获取二^节点异常描述信息
获取当前的二圾节点鳩变细节特征描述信息
初Wt该节融 KiMS述以
获取子节点数量 井初始牝选中节 点桶z=Q
获取二级节点列表
循环韓返回 异常雌的累加
累计二节点舄 常描述
返回N。属性
|位et信息返回空
爾川幡性
图6 二、三级节点调用流程
Fig 6 The second and third level nodes calling process
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3.1.3属性调用规则设计
(1)病变区域属性的调用
在病变区域的属性设计中,“名称(name)与编码(id)”的设置是为了让 该节点具有唯一性或用来区分其他节点;“同层级生成顺序(generateorder)”的 设计,是如果该节点所处的层级中,同时选中了多个节点时,则需要按照属性值 的设置从小到大排列依次输出;“生成顺序(order)”的设计是联合病变区域、 病变特征、细节特征以及病变位置等四个方面,根据医生读片思路,按照病变位 置在前,病变区域在中间,病变特征和细节特征在后,来设置生成顺序的属性值, 并按照属性值的从小到大进行拼接输出;"异常描述(abnormaldescription) ”保 存在三层结构模型除病变位置外的所有节点属性中,该属性的设置根据医生对异 常的规范化描述,将其拆分成不同的词或短句保存在对应节点的属性中,例:“左 肺肺纹理增多”这句异常描述,“左肺”对应病变位置,“肺纹理”对应病变区 域,“增多”对应病变特征,将这几个词分别加入到对应类别下的节点属性中, 在 输出时根据生成顺序可以拼接成一个较为规范的异常表述; “正常描述
(normaldescription) ”保存在病变区域下的第一级节点的属性中,若一级节点没
有被选中,则触发该节点的使用规则,直接输出正常描述,作为检查所见的内容。
(2) 病变特征、细节特征属性的调用
除上述中的属性应用,“分隔符(delimiter)"属性的设计是由于一个病变区 域下对应多种病变特征,可能在应用中同时选中多个,因此,在每个特征节点的 属性中加入该属性,当存在多选情况就会触发调用分隔符的命令,每个被选中的 病变特征用“、”分隔开,例:当肺纹理的病变特征同时选择了 “①增多②增粗 ③紊乱④模糊”时,触发调用分隔符命令,生成为“肺纹理增多、增粗、紊乱、 模糊”。
(3) 病变位置属性的调用 病变位置复杂多变,因此除基本属性设计之外,还新增了六个新属性用来提
升生成的规范性。其中“子节点全部选中描述(allchildrendescription)”属性, 是当病变位置下的某个节点的子节点全部选中时触发该属性的调用,例:左肺的 子节点包括“左肺上野、左肺中野、左肺下野”,若这三个子节点全部选中,则
调用该属性;“子节点部分选中描述(partialchildrendescription)",当子节点没 有被全部选中时,调用该属性;“无子节点选中描述(nochildrendescription)", 由于调用接口是一层一层的进行节点遍历,所以要确定每一层是否有被选中的节 点,才能继续执行遍历任务,因此该属性的设计是当没有子节点选中时才会被启 用。
此外,调用时经常存在多位置的情况,会导致生成结果不规范,所以设置了 以下三个属性来解决此问题。“排在第一位的病变位置描述
(firstlocationdescription)",当选择了多个位置节点时,排在首位的位置会启用 该属性,例:当同时选择了“左侧第1肋骨、左侧第2肋骨、左侧第3肋骨、左 侧第4肋骨",则“左侧第1肋骨"就会启用此属性,生成“左侧第1、"这种 描述;“排在中间的病变位置描述(middlelocationdescription)",多个病变位置 被选择时,排在中间的病变位置将启用此属性,例:“左侧第1肋骨、左侧第2 肋骨、左侧第3 肋骨、左侧第4 肋骨",则“左侧第2 肋骨、左侧第3 肋骨"会 使用该属性, 生成“2、3、" 这种描述; “排在最后的病变位置描述
(lastlocationdescription)",多个病变位置被选择时,排在最后的病变位置将启 用此属性,例:“左侧第 1 肋骨、左侧第 2 肋骨、左侧第 3 肋骨、左侧第 4 肋骨", 则“左侧第 4肋骨"将使用该属性,生成“4肋骨"。上述步骤完成后,生成的 最后结果为“左侧第1、2、3、4 肋骨"。
3.2实验数据获取及标注
规范化检查所见生成其实是通过调用接口将结构化数据与Neo4j数据库中的 三层结构模型读片知识图谱相交互的过程。首先在安徽省影像云平台中获取相应 脱敏的影像检查报告,然后对这些数据进行标注,得到的结构化数据与保存在 Neo4j图数据库中的三层结构模型读片知识图谱节点利用调用接口的规则进行匹 配和调用,最后通过属性值的拼接完成规范化检查所见的生成,解决了“端到端" 生成导致的准确性、规范性、可解释性等问题。规范化检查所见生成流程如图 7 所示。
 
 
3.2.1数据获取
本文规范化检查所见实验所需的脱敏数据主要来自安徽省影像云平台,该平 台是由安徽省卫健委主导、本项目团队研发并建设的影像云平台。目前该平台已 经发展成为国内“规模最大、机制最顺、应用最好”的省级影像云官方平台。该 平台已经联网 1782 家医疗机构,占全省可联网医疗机构的 85%以上;同时,该 平台已经存储了6000 多万例影像检查数据。为了实现医学智能化诊断,在影像云 平台中拉取20 多万条脱敏、清晰的胸部后前位片检查报告用于研究训练,提高实 验结果的真实性。
3.2.2数据标注
为了测试基于三层模型从结构化数据生成规范化所见的效果,本研究从影像 云数据平台获取原始检查报告,以构建的读片知识图谱作为标准,将原始检查所 见中的异常描述按照读片知识图谱的内容人工标注成结构化的形式,以保证数据 的准确性,并用于从结构化到规范化检查所见生成的实验,例:原始检查所见为: “胸廓对称,气管居中;两肺纹理稍增多,未见明显实质性浸润;两侧肺门和纵 隔影未见明显异常;心影稍增大,主动脉结未见明显钙化;膈肌平滑,双侧肋膈 角锐利”,在标注过程中,根据检查所见内容,按照标注图谱中的分类进行标注,
如图8 所示,生成的结构化数据为:“[肺纹理-增多-位置-肺野-左肺,肺纹理-增多 -位置-肺野-右肺,心影-增大]”。通过半自动标注的方式,邀请专业医生由人工先 标注部分数据,再利用计算机筛选出与人工标注相同的数据进行自动标注,这种 由人工与计算机结合的半自动标注方式,既满足了标注数据准确性的要求,又提 升了标注效率。在标注过程中,根据原始检查报告内容可以不断完善更新读片知 识图谱节点,使得结构化数据更加细致准确。
病变位置病变区域 病弯特征 病变位置 融特征 細节W征 病变特征
两肺野购增多、増粗、模糊,右肺下野刃片状密度増高轡,边界不清.可见空气支气管征。两侧肺门 结构清晰。心影大小、形态未见异常。两横膈光滑,右侧助籲稍钝,左侧肋膈角锐利。
病变匕 病』区域 病变特征
图 8 数据标注示例
Fig 8 Data labeling example
3.3实验结果
针对结构化数据利用调用接口与图数据库中的节点交互生成的规范化文本的 评价,目前都是通过自然语言评价指标来衡量其准确性,但这种基于自然语言的 指标对中文报告评价严格意义上没有衡量价值。本文通过对专业影像科医生在评 价规则方面的培训后,对随机抽取的1200 条生成数据进行“准确性和流畅性”等 两方面进行评价,准确性评价是指生成的规范化检查所见内容与标注的结构化数 据是否完全对应;流畅性评价是指生成的规范化检查所见是否具有可读性。规范 化检查所见生成结果如表 6 所示。
表6 规范化检查所见生成结果
Tab 6 Standardized generation results of findings
 
 
 
3.3.1评价指标
准确性的评价等级及评价规则:(1)非常准确:结构化数据与生成的规范化 检查所见完全一致;(2)准确:结构化数据与生成的规范化检查所见有1 处不匹 配;(3)一般:结构化数据与生成的规范化检查所见有2 处不匹配;(4)不准 确:结构化数据与生成的规范化检查所见有 3处不匹配;(5)非常不准确:结构 化数据与生成的规范化检查所见有24处不匹配或结果生成为空。流畅性的评价 等级及评价规则:(1)非常流畅:生成结果都无卡顿或逻辑问题,符合医生阅读 思路;(2)流畅:生成结果存在1 处不流畅情况;(3)一般:生成结果存在 2 处不流畅情况;(4)不流畅:生成结果存在3 处不流畅情况;(5)非常不流畅: 生成结果存在24处不流畅情况。以上级别的设定分别对应“5分、4分、3分、2 分、1 分”,若平均值23分,则说明生成结果合格,可以满足医生在临床中的要 求,否则为不合格。
3.3.2评价结果
根据专业医生对 1200条随机抽取数据进行评价,其中,“非常准确”的评价 数量为1179 条,占比 98.25%;“准确”的评价数量为 21条,占比 1.75%;对于 “一般、不准确、非常不准确”的评价数量和占比均为 0。“非常流畅”的评价 数量为798 条,占比66.5%;“流畅”的评价数量为 298条,占比24.83%;“一 般流畅”的评价数量为92 条,占比 7.67%;“不流畅”的评价数量为11 条,占 比 0.92%;“非常不流畅”的评价数量为 1 条,占比 0.08%。准确性评价合格数 据为 1200 条,占比 100%;流畅性评价合格数量 1188 条,占比 99%,不合格数 量为12 条,占比 1%。具体准确性评价结果如表 7所示,具体流畅性评价结果如 表8 所示。
表 7 规范化检查所见准确性评价结果
Tab 7 Accuracy evaluation results of standardized findings
不合格 准确性 数量 占比 合格/不合格
数量 合格/不合格
占比
合格 非常准确 1179 98.25% 1200 100%
准确 21 1.75%
一般 0 0%
不合格 不准确 0 0% 0 0
非常不准确 0 0%
 
表 8 规范化检查所见流畅性评价结果
Tab 8 Fluency evaluation results of standardized findings
、X合格
不合格 流畅性 数量 占比 合格 /不合格
数量 合格/不合格
占比
合格 非常流畅 793 66.08% 1188 99%
流畅 293 24.41%
一般 84 7%
不合格 不流畅 2 0.17% 12 1%
非常不流畅 1 0.08%
3.3.3结果分析
实验结果说明具通过有规则的调用接口在基于三层结构模型的读片知识图谱 生成的规范化检查所见生成任务中具有较好的表现,不合格数据中主要是由于生 成文本存在不同原因的流畅性问题,但生成文本的准确性表现良好,可以满足医 生在临床诊断中的需求。对于准确性的评价,其中最差的评价为“准确”,主要 是忽略了病变区域中的某个细节位置,例:结构化数据“[肺门-肺动脉增粗-位置- 肺动脉-左侧肺动脉-下部,肺门-肺动脉增粗-位置-肺动脉-右侧肺动脉-下部]”,生 成的规范化检查所见为“两侧肺动脉增粗”,忽略了细节病变位置“下部”;对 “流畅性”的评价中,由于读片知识图谱节点属性的设计和调用接口需要普适性 的原因,会导致生成结果在不同程度上存在不规范和不流畅的问题,例:“左肺 上野、左肺中野见结节状高密度影”,重复出现的病变位置导致文本的可读性变 差。
3.4实验优化
为了改善上述问题,我们结合专业医生对生成规范化检查所见文本评价后的 建议,完善了不同病变特征的规范化描述,提升了文本的规范性。其次,通过设 计调用接口中病变位置的调用与合并规则,完善了细节病变位置忽略问题,以及 “左肺上野、左肺中野”这种重复出现病变位置问题,合并成“左肺上、中野”, 有效的提升了可读性和文本的简洁性。在不断地完善中实现检查所见的更加规范 化生成。相比于“端到端”或加入结构简单知识图谱训练得到的结果,本研究提 升了生成结果的可解释性和规范性,另外三层结构模型读片知识图谱中加入了详 细的病变位置,实现检查报告对病变的精准定位。
3.5本章小结
本章介绍了三层结构模型知识图谱在规范化检查所见生成任务中,通过调用 接口规则设计、调用接口应用以及应用后的结果分析等三个方面进行阐述。首先, 本章为实现从结构化数据向规范化检查所见的转变,设计了一个具有严谨调用逻 辑规则的调用接口,该调用接口根据预先设定的规则可以将结构化数据与保存在 Neo4j 图数据库中的读片知识图谱进行交互,实现规范化检查所见的生成;其次, 为了测试调用接口的实际应用效果,我们通过对原始检查所见标注得到结构化的 形式来验证生成情况;最后,通过专业影像科医生随机对生成结果进行分析,得 到生成的规范化检查所见在准确性和流畅性方面表现优秀,基本上可以满足临床 需求。
第4 章 胸片检查印象生成算法研究
影像学检查报告由检查所见和检查印象两部分组成。第 3 章已经详细讲述了 规范化检查所见的生成过程。本章节通过生成的规范化检查所见作为训练数据, 运用BERT模型,实现检查印象的自动生成。
4.1基于BERT胸片检查印象生成模型
本章节主要介绍在胸片检查印象自动生成实验中选择BERT作为主要模型, 该模型结合UniLM模型进行了优化,使预测的结果具有良好的表现。
4.1.1模型结构
BERT是一种预训练模型,它将Transformer中的Encoder架构放进预训练模 型中,成为了双向预训练语言模型。同时,为了适应双向架构,BERT加入了两 个NLP任务:“完形填空任务和上下语句匹配任务”用来捕捉词语和句子的特征, 让该模型获得了更强的泛化能力。
BERT整体框架包括“预训练(Pre-training)”和“微调(Fine-tuning) ”两 个阶段,如图9 所示[62]。预训练阶段,模型将首先应用于通用任务,利用无标签 数据进行训练,模型训练完成后得到初始化的参数,再进行微调阶段,模型被迁 移到特定任务中,并将标签数据加入其中来不断调整参数,直到重新收敛为止。
 
图 9 BERT 模型的预训练和微调架构图
Fig 9 Pre-training and fine-tuning architecture diagram of UNILM modle
BERT 模型采用了 Transformer 中的 Encoder 架构,通过引入多头注意力机制, 将Encoder块进行叠加,形成了最终架构。为了适应不同规模的任务,BERT将 其结构分为了 base 和 large 两类。将 Transformer 作为模型的主要框架, BERT 模 型能够更准确地捕获语句中的双向关系,最大程度地提升了预训练模型在特定任 务中的性能。
BERT 模型的输入由三部分组成,除了传统意义上的 token 词向量,还引入 了位置词向量和句子词向量。位置词向量的思想与 Transformer 一致,但 BERT 并未使用其计算公式,而是随机初始化后放入模型一起训练;句子词向量实质上 是一个 0-1 表征,目的是区分输入文本中的上下句。这三种词向量相加,构成了 最终输入模型的词向量,如图10 所示[62]。
 
Fig 10 BERT modle input format
 
4.1.2模型优化
通过结合UniLM模型[63]中的序列到序列语言模型,使BERT模型的性能进 一步提升。该模型整体框架和BERT相同,都使用了 Transformer的Encoder端。 然而,UniLM模型在预训练时除单向语言模型(Left-to-RightLM)、双向语言模 型(Bidirectional LM)外,加入序列到序列语言模型(Seq-to-Seq LM)来共同优 化神经网络,不同模型的构建是通过设计不同的特殊的注意力掩码完成,通过掩 码屏蔽对应位置的注意力值,达到控制当前时刻输入是否能看见未来时刻的输入 的目的,具体架构如图11所示[63]。针对不同的任务目标,选取不同掩码方式。 具体的方法如公式(1)~(3)[63],在计算注意力矩阵的 Softmax 操作时引入 Mij 值,表示位置7是否需要被j关注到。
Qi = Hh-'W Ki 二 計对 V 二 H’twJ (1)
0, allow to attend
Mj 斗 (2)
[—s prevent from attending
A; = softmaxf©巴 + M V; (3)
l何丿1
序列到序列模型可以看成单向模型的进一步优化,可以让模型充分利用各时 刻输入的信息。在训练过程,序列到序列模型的输入序列由源语句序列(source)和 目标语句序列(target)拼接组成,例如将这两个句子合并成一个:[SOS]你有什么 症状[EOS]头痛[EOS]。根据source序列的各个时刻输入就可以观察到过去和未 来时刻,这点与双向语言模型类似,而对于target序列的各个时刻输入则与单向 语言模型类似,只能观测到现在和过去的时刻,未来时刻会被掩盖。因此,模型 学习到一个双向的Encoder和单向Decoder,类似于Transformer模型。
在BERT模型中通过加入序列到序列语言模型,使其在自然语义理解(NLU) 任务中取得优秀的效果,而且还让BERT增加了自然语言生成任务(NLG)的训练。
 
 
 
图 11 UniLM 模型架构图
Fig 11 Architecture diagram of UniLM model
4.2实验数据获取及预处理
本文检查印象生成的实验数据主要通过安徽省影像云平台获取,并依据 GB/T 35273—2020《信息安全技术个人信息安全规范》的要求进行脱敏处理。我们将基 于三层结构模型读片知识图谱生成的 20 多万规范化检查所见和对应的原始检查 印象作为训练的数据,并且按照7:2:1 的比例划分训练集、测试集、验证集, 得到训练集的数据为141319条,测试集的数据为 40200条,验证集的数据为 19899 条。然而,检查所见经过规范后,会存在一条规范化描述对应多条不同检查印象 描述的情况,无法得到一对一的数据,面对这种情况,同时也为了提高训练检查 所见生成结果的准确性,我们扩展了检查印象生成训练集中的数据,即将一条规 范化检查所见对应随机筛选出的20 条原始检查印象作为训练数据集。
4.3实验设置
将经过预处理的数据集用于模型训练中,在完成训练之后得到模型参数,然
后再利用现有的模型参数在测试数据集上进行生成检查印象的实验并评估其准确
性。在本文构建的数据集上预训练得到模型参数,不断进行微调得到最优效果。 训练该模型时,将模型的学习率设置为 0.0001,batchsize 设置为 32,epoches 设 置为8,深度学习环境是 Pytorch 1.12.1,CUDA 版本为 10.2,工作台的环境是一 台 48 Intel(R) Xeon(R) Silver 4214R CPU @ 2.40GHz 的处理器以及 4 X Quadro RTX 6000 24GB 的显卡。
4.4实验结果
针对检查印象生成的评价,本研究邀请了3 位专业医生,并进行质量评估的 培训,然后让医生对随机抽取的 300 条生成结果的“准确性”进行评估,准确性 评估是指在生成的检查印象中是否对规范化检查所见中异常描述内容的准确的总 结。检查印象生成结果如表 9 所示。
表 9 检查印象生成结果
Tab 9 Impression generation results
规范化检查所见 生成检查印象 原始检查印象
两侧胸廓对称;气管及纵隔居 中;两侧肺纹理清晰;两肺未 见明显实质性病变;两侧肺门 无增大、增浓;心影增大,呈 “主动脉型”;两侧膈面光整; 两侧肋膈角清晰锐利。 两肺未见明显实质性病变;心 影增大,请结合临床。 两肺未见明显活动性病变。主 动脉型心影改变,请结合临 床。
 
两侧胸廓对称;气管及纵隔居 中;两肺肺纹理增多、增粗; 两肺未见明显实质性病变;两 侧肺门无增大、增浓;心影大 小、形态如常;两侧膈面光整; 左侧肋膈角变钝;右侧水平裂 显影。
两侧胸廓对称;气管及纵隔居 中;两肺肺纹理增多、增粗; 两肺未见明显实质性病变;两 侧肺门无增大、增浓;心影大 小、形态如常;右侧膈面上提; 两侧肋膈角清晰锐利。
4.4.1评价指标
准确性的评价等级及评价标准:(1)非常准确:能准确、完整总结检查所见 内容;(2)准确:生成准确,但检查印象有遗漏,但不是重要诊断(如肺炎、占 位、气胸、骨折等);(3)一般:检查印象无遗漏,但不是最优结果;(4)不 准确:检查印象遗漏重要诊断1 处,或者生成检查印象错误(位置生成错误、与 检查所见不符、结论错误等);(5)非常不准确:检查印象前后矛盾,检查印象 遗漏重要诊断22不匹配,存在生成不全或乱码情况。上述评价等级分别对应“5 分、4分、3分、2分、1分”,若平均值23分,则说明生成结果合格,可以满 足医生在临床中的要求,<3分视为不合格。
4.4.2评价结果
根据专业医生对300条随机抽取数据进行评价,其中,“非常准确”的评价 为 80 条,占比 26.67%; “准确”的数据为 50 条,占比 16.67%;“一般”的数 据为 54条,占比18%;“不准确”的数据为 85条,占比28.33%;“非常不准确” 的数据为 31 条,占比10.33%。合格数据为 184条,占比61.34%,不合格数量为 116条,占比 38.66%。评价结果如表 10所示。
表 10 检查印象准确性评价结果 Tab 10 Accuracy evaluation results of impession
准确性 数量 占比 合格/不合格
数量 合格/不合格
占比
非常准确 80 26.67%
准确 50 16.67% 184 61.34%
一般 54 18%
不准确 85 28.33% 38.66%
非常不准确 31 10.33% 116
 
4.4.3结果分析
实验结果说明通过基于三层结构模型生成的规范化检查所见作为训练数据得 到的检查印象,在一定程度上约束了检查印象生成多种描述的情况,同时,在检 查印象生成任务中,合格的数据占比为 61.34%。对于准确性的评价,评价为“不 准确、非常不准确”的数据,是与检查所见和医学影像比较时存在较为明显的误 诊、漏诊以及生成不全或乱码的情况。然而这种情况的出现,是由于检查印象生 成模型对某些描述不熟悉,敏感度不够,导致生成的结果对某种诊断并没有达到 预期,在未来的任务中仍然需要继续优化模型,提升检查印象生成的准确性。
4.5本章小结
本章介绍了在检查印象生成任务中,通过获取基于三层结构模型生成的规范 化检查所见和原始检查印象为训练数据,采用 BERT 模型作为检查印象生成模型, 并将这些数据按照7:3:1 的比例进行训练集、测试集、验证集的划分;然后随 机抽取300 条生成的结果,经由专业医生按照评价标准对其准确性进行评价。评 价结果中,合格的数据占比 61.34%,不合格数据占比 38.66%,虽然合格的数据 达到了大部分,但是仍然不满足临床的需求,若要全面应用到临床中,需完善实 验的设计,不断优化模型提高准确率。
第5 章 总结与展望
5.1总结
目前,人工智能技术正在深刻地改变着医学影像学的当前现状以及未来发展 趋势[64-66]。医学影像学人工智能研究的理想化目标是让机器能够模拟专业医生的 读片决策过程,并最终替代或部分替代人类的某些工作。然而,得益于检查报告 生成过程的简单性,使得报告自动生成算法逐渐成为研究热点,但基于深度神经 网络的人工智能技术具有非常突出的“黑箱”特性,因而该技术在很多领域的应 用常常会引起人们的不信任感,因此人们迫切希望研究一种可解释性的人工智能 技术(Explainable Al, XAI) [67]。
本文在医学影像智能化诊断的研究中提出一种新的思路,在现有的医学知识 图谱基础上做出了一些完善和改变,通过添加“细节特征”和“病变位置”来构 建三层结构模型读片知识图谱,在检查报告生成中可以提升规范性以及可解释性。 以下是本研究内容的总结:
( 1)三层结构模型读片知识图谱( RIKG )的提出:在现有的医学知识图谱 的基础上,分析、总结存在问题,汲取优势并提出了基于“病变区域-病变特征- 细节特征”的三层结构模型读片知识图谱,该图谱是基于专业医生为主导力量进 行构建的,符合影像医生读片思路并且细化了知识图谱内容,在其中加入了细节 特征和病变位置,三层结构模型读片知识图谱实现了医学影像读片知识更详细的 表述,并在今后的应用中实现更全面的表达,但构建读片知识图谱速度较慢。
( 2 )三层结构模型读片知识图谱的设计:主要从专业知识获取、知识处理以 及知识的结构搭建和内容设计等方面来构建三层结构模型读片知识图谱。影像读 片专业知识的获取主要来源于教科书、医学百科、影像检查报告等,本文在构建 三层结构模型读片知识图谱时,通过依靠影像科医生根据先验知识及自身经验, 对不同数据来源的关键知识进行提取,然后将这些提取到的关键知识匹配到“病 变区域”、“病变特征”、“细节特征”对应的本体层中,在研究中将病变位置 作为特殊节点加入到细节特征中,根据医生读片思路将本体层按照“病变区域- 病变特征-细节特征”的次序排列得到三层结构读片知识图谱,并保存在 Neo4j 图数据库中。为了实现规范化检查所见的生成,根据具体需要,将不同层级中的 不同节点设计了属性和关系。在三层结构模型读片知识图谱的构建和设计中,全 程有专业影像科医生参与制作,保证了数据的准确性以及知识图谱的专业性。
(3)实验测试:基于三层结构模型读片知识图谱生成的规范化检查所见实验 测试,随机抽取了 1200条生成的规范化检查所见,邀请6 位经过培训后的影像科 医生对这些数据的“准确性和流畅性”进行评价,其中数据的合格率达到了 99%, 评价结果说明生成的规范化检查所见在很大程度上完善了检查所见书写质量参差 不齐的情况,而且满足临床医生的需求。检查印象生成的实验测试,随机抽取 300 条数据,并对其的准确性进行评估,其中合格率达到了 61.34%,虽然结果达到了 及格水平,但作为要求严苛的医疗行业需要对患者负责,这样结果并不能应用于 临床,所以检查印象的准确率仍然需要继续提升。
5.2展望
本文在构建三层结构模型读片知识图谱以及应用方面提供了一些探索性的想 法,但是仍然面临许多问题。若要将三层结构模型读片知识图谱在临床中全面应 用,并且符合临床要求,则需要通过在应用过程中不断丰富三层结构模型读片知 识图谱、完善调用接口规则以及优化检查印象生成模型,这些内容都是我们在未 来的主要研究内容。具体内容如下:
(1)丰富三层结构模型读片知识图谱:本研究在构建三层结构模型时涉及到 了“病变区域、病变特征、细节特征”三个方面内容,但其中包含的实体信息并 不全面,缺少对罕见疾病特征的归纳整理以及对于一些特殊病变特征没有设置病 变位置,例:PICC管、胸腔引流管、金属缝线等。在实际应用过程中,通过评价 生成的规范化检查所见,来完善保存在Neo4j图数据库中的节点及其属性,使其 在准确性和流畅性方面得到最大程度的改进,并且研究中文读片知识图谱的自动 构建构建技术,如何保证在抽取到的实体和关系准确的前提下,高效完成专业读 片知识图谱的构建。这是我们未来在丰富三层结构模型读片知识图谱中的主要研 究内容。
(2)完善调用接口:在规范化检查所见生成任务中,调用接口用于将结构化 数据与Neo4j图数据库中的读片知识图谱之间的信息交互,通过制定一些调用规 则来让生成的结果更加合理,更符合于临床中的需求。然而在结果评价中,调用 接口面对普遍适用性的原则时,对于一些复杂的情况会导致生成的描述可读性变 差。在未来的研究中,我们会在实际应用中针对此类情况不断完善调用接口的调 用规则,并增强其面对复杂问题时处理的灵活性。与此同时,我们也会将调用接 口应用于其他检查项目中,并检验其的普遍适用性。
(3)优化检查印象生成模型:在检查印象生成任务中,采用的模型在生成结 果存在误诊漏诊以及生成内容不全等问题。本研究在实验过程中虽然提供了充足 的训练数据,并且在实验过程中全程都有专业医生参与指导,但生成结果的准确 性还有较大的提升空间,距离广泛的应用于临床还有一定差距,故本研究在未来 的任务中,将不断优化现有模型并继续尝试其他优秀模型来提高生成结果的准确 性。
参考文献
[1] PERCHA B. Modern clinical text mining: a guide and review [J]. Annual review of biomedical data science, 2021, 4: 165-87.
[2] 万玲玲. 基于深度学习的幽门螺旋杆菌内镜图像分类研究与应用 [D]; 南
昌大学, 2022.
[3] 步宏. 人工智能推动精准病理诊断的发展 [J]. 四川大学学报 ( 医学版),
2021, 52(02): 153-5.
[4]SUNDAR L K S, MUZIK O, BUVAT I, et al. Potentials and caveats of AI in hybrid imaging [J]. Methods, 2021, 188: 4-19.
[5]ALEXANDER A, JIANG A, FERREIRA C, et al. An intelligent future for medical imaging: a market outlook on artificial intelligence for medical imaging [J]. Journal of the American College of Radiology, 2020, 17(1): 165-70.
[6]JING B, XIE P, XING E. On the automatic generation of medical imaging reports [J]. arXiv preprint arXiv:171108195, 2017.
[7]LI Y, LIANG X, HU Z, et al. Hybrid retrieval-generation reinforced agent for medical image report generation [J]. Advances in neural information processing systems, 2018, 31.
[8]SEAH J C, TANG C H, BUCHLAK Q D, et al. Effect of a comprehensive deep-learning model on the accuracy of chest x-ray interpretation by radiologists: a retrospective, multireader multicase study [J]. The Lancet Digital Health, 2021, 3(8): e496-e506.
[9]孙振, 李新福. 多特征融合的中文电子病历命名实体识别 [J]. 计算机工程
与应用: 1-10.
[10]梁静, 文奕. 知识图谱在医学辅助诊断中的应用研究 [J]. 医学信息学杂志, 2022, 43(11): 34-40.
[11]梁文桐, 朱艳辉, 詹飞等. 基于深度学习多模型融合的医疗命名实体识别
[J]. 计算机应用与软件, 2022, 39(10): 162-8+229.
[12]陈悦勤, 钱小毅. 城市轨道交通智能语音售票机关键技术及应用研究 [J]. 城市轨道交通研究, 2022, 25(10): 149-53.
[13]王超, 董杰, 陈含露. 面向智能视频监控的空中交通管制员图像分割 [J]. 安全与环境学报: 1-8.
[14]张泽崴, 张建勋, 邹航等. 多智能体深度强化学习的图像特征分类方法 [J]. 计算机工程与应用: 1-9.
[15]DOI K. Computer-aided diagnosis in medical imaging: historical review, current status and future potential [J]. Computerized medical imaging and graphics, 2007, 31(4-5): 198-211.
[16]LIU G, HSU T-M H, MCDERMOTT M, et al. Clinically accurate chest x-ray report generation; proceedings of the Machine Learning for Healthcare Conference, F, 2019 [C]. PMLR.
[17]侯代兵. 基于深度学习医学图像报告生成算法研究 [D]; 山东大学, 2021.
[18]YANG S, WU X, GE S, et al. Knowledge matters: Chest radiology report generation with general and specific knowledge [J]. Medical Image Analysis, 2022, 80: 102510.
[19]WANG S, TANG L, LIN M, et al. Prior Knowledge Enhances Radiology Report Generation [J]. arXiv preprint arXiv:220103761, 2022.
[20]张栋豪, 刘振宇, 郏维强等. 知识图谱在智能制造领域的研究现状及其应 用前景综述 [J]. 机械工程学报, 2021, 57(05): 90-113.
[21]于俊清, 王鑫, 况琨等. 跨媒体智能关联分析与语义理解理论与技术研究 进展 [J]. 计算机辅助设计与图形学学报: 1-22.
[22]李阳, 杜睿山, 张豪鹏. 面向医药信息的知识图谱构建 [J]. 计算机技术与 发展, 2022, 32(10): 189-93.
[23]FAHLMAN S E, TOURETZKY D S, VAN ROGGEN W. Cancellation in a Parallel Semantic Network; proceedings of the Ijcai, F, 1981 [C].
[24]SCHUBERT L K. Extending the expressive power of semantic networks [J].
Artificial intelligence, 1976, 7(2): 163-98.
[25]BROEKSTRA J, KLEIN M, DECKER S, et al. Enabling knowledge representation on the web by extending RDF schema; proceedings of the Proceedings of the 10th international conference on World Wide Web, F, 2001 [C].
[26]BECHHOFER S, VAN HARMELEN F, HENDLER J, et al. OWL web ontology language reference [J]. W3C recommendation, 2004, 10(2): 1-53.
[27] 徐跃峰. 基于深度学习 的关系 抽取系统实现 [J]. 电子测试, 2021, (15):
38-42.
[28] 奥德玛, 杨云飞, 穗志方等. 中文医学知识图谱 CMeKG 构建初探 [J]. 中
文信息学报, 2019, 33(10): 1-9.
[29]侯梦薇, 卫荣, 陆亮等. 知识图谱研究综述及其在医疗领域的应用 [J]. 计
算机研究与发展, 2018, 55(12): 2587-99.
[30]张凌云. 基于深度学习的《资本论》汉英术语知识库建设与应用研究 [J].
图书馆工作与研究, 2023, (02): 20-7+50.
[31]赵新元, 吴刚, 伍之昂等. 从跟跑到并跑——中国工商管理研究国际影响
力的回顾与展望 [J]. 管理评论, 2021, 33(11): 13-27.
[32]PUJARA J, MIAO H, GETOOR L, et al. Knowledge graph identification; proceedings of the The Semantic Web—ISWC 2013: 12th International Semantic Web Conference, Sydney, NSW, Australia, October 21-25, 2013, Proceedings, Part I 12, F, 2013 [C]. Springer.
[33]SINGHALA. Introducing the knowledge graph: things, not strings [J]. Official google blog, 2012, 5: 16.
[34]AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: A nucleus for a web of open data; proceedings of the The Semantic Web: 6th International Semantic Web Conference, 2nd Asian Semantic Web Conference, ISWC 2007+ ASWC 2007, Busan, Korea, November 11-15, 2007 Proceedings, F, 2007 [C]. Springer.
[35]BIEGA J, KUZEY E, SUCHANEK F M. Inside YAGO2s: A transparent information extraction architecture; proceedings of the Proceedings of the 22nd International Conference on World Wide Web, F, 2013 [C].
[36]VRANDECIC D, KROTZSCH M. Wikidata: a free collaborative knowledgebase [J]. Communications of the ACM, 2014, 57(10): 78-85.
[37]赵宇博, 张丽萍, 闫盛等. 个性化学习中学科知识图谱构建与应用综述 [J]. 计算机工程与应用: 1-24.
[38]刘洪波, 陈越, 卢记仓等. 面向知识图谱的规则挖掘研究综述 [J]. 计算机 工程与应用: 1-11.
[39]李俊卓, 昝红英, 闫英杰等. 儿科疾病及保健知识问答系统的构建 [J]. 中 文信息学报, 2022, 36(01): 127-34.
[40]王巍巍, 王志刚, 潘亮铭等. 双语影视知识图谱的构建研究 [J]. 北京大学 学报(自然科学版), 2016, 52(01): 25-34.
[41]周亦, 周明全, 王学松等. 大数据环境下历史人物知识图谱构建与实现 [J]. 系统仿真学报, 2016, 28(10): 2560-6.
[42]刘进, 符正平, 方轮. 制造业转型升级研究的知识图谱分析:热点、演化和 前沿 [J]. 科技管理研究, 2020, 40(05): 121-9.
[43]罗玲,李硕凯,何清等.基于知识图谱、TF-IDF和BERT模型的冬奥知识 问答系统 [J]. 智能系统学报, 2021, 16(04): 819-26.
[44]周肖彬. 医学本体和医学知识获取的研究 [D]; 中国科学院研究生院(计算 技术研究所), 2003.
[45]张崇宇. 基于知识图谱的自动问答系统的应用研究与实现 [D]; 北京邮电 大学, 2019.
[46]孟岩, 罗德芳. 基于临床知识库的电子病历智能化应用研究 [J]. 中国卫生 信息管理杂志, 2019, 16(05): 601-4.
[47]左海霞. 智能化病案质量控制系统的构建与应用 [J]. 中国病案,2021, 22(08): 40-3.
[48]王宁. 基于电子病历的中医临床决策支持研究 [D]; 中国科学技术大学,
2021.
[49]修晓蕾, 吴思竹, 崔佳伟等. 医学知识图谱构建研究进展 [J]. 中华医学图 书情报杂志, 2018, 27(10): 33-9.
[50]吴丹, 周作建. 基于知识图谱的心血管疾病智能问答系统 [J]. 软件导刊, 2022, 21(03): 160-4.
[51]江双五, 刘惠兰, 温华洋等. 气象记录档案知识图谱构建 [J]. 计算机系统 应用, 2022, 31(01): 73-82.
[52]LARRIBA-PEY J L, MARTiNEZ-BAZaN N, DOMiNGUEZ-SAL D. Introduction to graph databases; proceedings of the Reasoning Web International Summer School, F, 2014 [C]. Springer.
[53]LOURENqO J R, CABRAL B, CARREIRO P, et al. Choosing the right NoSQL database for the job: a quality attribute evaluation [J]. Journal of Big Data, 2015, 2(1): 1-26.
[54]GUIA J, SOARES V G, BERNARDINO J. Graph Databases: Neo4j Analysis; proceedings of the ICEIS (1), F, 2017 [C].
[55]高厦. 基于知识图谱的个性化学习平台的设计与实现 [D]; 西北大学, 2021.
[56]羊艳玲, 李燕, 帅亚琦等. 基于中医医案的知识图谱构建 [J]. 医学信息学 杂志, 2022, 43(10): 50-4.
[57]ZHANG Y, WANG X, XU Z, et al. When radiology report generation meets knowledge graph; proceedings of the Proceedings of the AAAI Conference on Artificial Intelligence, F, 2020 [C].
[58]马凯. 数字病理图像智能诊断报告生成技术的研究 [D]; 上海交通大学,
2020.
[59]李湘元, 张金宝, 刘鹏华等. 深度学习在医学影像领域的应用现状与展望 [J]. 临床放射学杂志, 2021, 40(12): 2423-9.
[60]姚琼, 王觅也, 师庆科等. 深度学习在现代医疗领域中的应用 [J]. 计算机 系统应用, 2022, 31(04): 33-46.
[61]徐淑豪. 基于深度学习的脑 MRI 影像报告自动生成 [D]; 青岛科技大学,
2021.
[62]DEVLIN J, CHANG M-W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [J]. arXiv preprint arXiv:181004805, 2018.
[63]DONG L, YANG N, WANG W, et al. Unified language model pre-training for natural language understanding and generation [J]. Advances in neural information processing systems, 2019, 32.
[64]HOSNY A, PARMAR C, QUACKENBUSH J, et al. Artificial intelligence in radiology [J]. Nat Rev Cancer, 2018, 18(8): 500-10.
[65]SHI Y, WANG Q. The Artificial Intelligence-Enabled Medical Imaging: Today and Its Future [J]. Chinese Medical Sciences Journal, 2019, 34(2): 71-5.
[66]GORE J C. Artificial intelligence in medical imaging [J]. Magn Reson Imaging, 2020, 68: A1-A4.
[67]BARREDO ARRIETA A, DiAZ-RODRiGUEZ N, DEL SER J, et al.
Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI [J]. Information Fusion, 2020, 58: 82-115.
综述
知识图谱构建及应用的研究进展
摘要:知识图谱(KG)在知识表示方面得到了本质上的飞跃,成为了学术研究 界的关注焦点,由此引发了一场真正的革命。目前通用知识图谱的快速发展,为 人类和机器更好地解释和推理知识提供了基础。因此,KG成为解决各种研究领 域问题的主要手段,其为智能问答、智能推荐、信息检索和辅助诊断在内的许多 任务带来了可能的解决方案,并为各个领域智能化的发展提供了希望。本文旨在 通过对知识图谱构建及应用等方面进行梳理和回顾,结合实际提出一些局限性和 不足。
关键词:知识图谱;知识图谱构建;知识图谱应用;综述 Abstract:Knowledge Graph(KG) has made an essential leap in knowledge representation and has become the focus of academic research, which has triggered a real revolution. At present, the rapid development of general knowledge map provides a foundation for human beings and machines to better explain and reason knowledge. Therefore, KG has become the main means to solve problems in various research fields, which brings possible solutions to many tasks such as intelligent question answering, intelligent recommendation, information retrieval and auxiliary diagnosis, and provides hope for the development of intelligence in various fields. This paper aims at combing and reviewing the construction and application of knowledge map, and puts forward some limitations and shortcomings in combination with reality.
Key words: Knowledge Graph ;Knowledge Graph Construction;Knowledge Graph Application;Review
1引言
随着信息时代的到来,各个领域中的电子数据呈爆炸式增长。这些数据中蕴 含着大量有价值的专业知识,然而,研究人员面对海量的数据时,由于这些电子 数据存储的源头和形式有所差异,导致无法高效的在这些数据中提取关键信息[1]。 面对人工智能技术和大数据技术高速发展的今天,正推动着全领域的智能化进程, 但其中知识和海量数据是发展的基础。所以,如何有效的建立知识与知识间的关 系,如何利用高效利用这些知识和数据成为智能化进程的挑战之一。
自 2012 年谷歌提出知识图谱这一概念以来,现已成为一种新型的知识表示形 式。目前知识图谱分为通用知识图谱和领域知识图谱[2]。知识图谱是一种具有指 向性的图结构[3],可以清楚的表示知识间的关系,而且知识图谱可以结合相应算 法可以进行知识检索和知识推理。现阶段知识图谱已经在智能问答、智能搜索中 发挥了出色的表现,同时也在教育行业、金融行业、医疗行业崭露头角。随着研 究的深入,知识图谱可能成为推动下一波智能化技术浪潮的趋势之一[4]。
2知识图谱构建研究现状
知识图谱的构建方法主要分为:传统构建[5]和自动构建[6]。传统构建是基于人 工、语义网络等方式对知识图谱进行构建,虽然传统构建的方式可以保证知识图 谱的准确性,但效率较低。近几年来,随着大数据技术和深度学习技术的发展, 知识图谱构建技术与它们的结合实现自动化构建受到了越来越多的关注。知识图 谱自动化构建主要从知识抽取、关系抽取、命名实体识别、知识融合、指代消解 等方 面进行 构建 。李小 龙等 人[7]在自 动构建 的基 本流 程中, 利用 BiLSTM-Attention-CRF模型进行命名实体识别,其结果准确率达到了 96%以上, 构建了乳腺癌诊断知识图谱,为临床决策提供了一定的研究价值。胡杰等人[8]借 鉴其他研究的构建方式, 加入 DPCNN 模型解决了信息冗余, 利用 BiLSTM-MUL-CRF 模型将实体提取和基于规则的方法解决实体嵌套和实体不连 续等问题,完成了汽车故障的知识图谱构建。
虽然知识图谱自动构建技术得到了发展,但在图谱构建中依然存在数据利用 率低、缺少专业的公开中文医疗语料库、中文文本处理工具缺乏等问题,如何继 续优化模型、提升图谱的准确性,依然是未来研究工作的重点。
3知识图谱应用研究现状
3.1智能问答
在智能问答(QA)系统中,通过知识图谱的语义信息可用于提升问答结果的准 确性,其本质其实是知识检索的一种高级检索方式,实现用户与机器之间的交互[9]。 华为的智能语音助手“小艺”、小米的“小爱同学”、apple的“siri” ,都是智 能问答的应用实例。Watson利用YAGO、DBpedia等多个知识库为数据源构建了 智能问答系统,展示基于知识图谱问答系统的强大优势[10]。洪海蓝等人[11]通过构 建海洋中药知识图谱,实现海洋中药智能问答系统,针对其中常见的6大问题的 回答情况表现优异,为海洋中药研发助力。章皓洲等人[12]考虑到现有智能问答系 统模型多用于单一数据的局限性,通过设计多头结构模型对不同数据进行处理, 提升了问答系统的性能。近年来,深度学习方法与传统方法相结合,提高了基于 知识图谱的智能问答系统的性能。
3.2智能检索
由于知识图谱的出现,现在越来越多的搜索引擎正在通过构建知识图谱来提 高搜索结果的准确性。例如,谷歌整合了来自谷歌Plus和谷歌知识图谱的数据, Facebook则利用知识图谱搜执行搜索功能。知识图谱有助于提升搜索系统的理解 查询的能力。一些研究人员正致力于深度开发知识图谱在信息检索方面的潜力。 在查询表示、文档表示和搜索引擎等不同服务中,可以通过多种方式利用知识图 谱的语义信息引用关键信息来拓展检索。在信息检索系统中,将知识图谱与深度 学习技术结合,使得检索系统在智能搜索方面显示出了良好的应用前景,而深度 学习技术不断在大量数据训练中学习,让更复杂、更灵活的检索成为可能[13]。
3.3智能推荐
随着网络技术的发展,购物[14]、金融[15]、电影[16]等多种多样生活内容的选择 成为用户面临的主要问题。在这种情况下出现的智能推荐系统缓解了用户面临的 信息过载问题。协同过滤(CF)是推荐系统的一种传统方式,基于用户的喜好和历 史交互进行推荐。然而,该方法会受到数据量的影响[17],因此,研究人员利用知 识图谱作为辅助信息对推荐系统进行改进。目前,研究开始尝试将知识图谱作为 推荐系统的辅助信息来源,其中知识间的内在关联有助于提高推荐准确性,增加 推荐结果的多样性,还为智能推荐系统提供可解释性。
3.4临床决策支持 传统意义上的临床决策是依靠医生的经验积累,存在一定的局限性和主观性。
在医疗信息爆炸式增长的同时,文本医学知识(TMK)在医疗信息系统中占据着越 来越重要的地位。因此,一些研究将文本医学知识(TMK)集成到知识图谱中,其 中包含了先验知识,为临床医学智能化发展提供了强大的数据基础,也为计算机 提供了快速的检索和可解释的医学知识。陈全福等人[18]提出构建中医全案数据库, 利用案例推理(case-based reasoning,CBR),通过深度学习、神经网络等算法, 匹配数据库中最符合的案例,给出临床决策建议;Wang等人[19]在疾病问答网站 上利用爬虫技术获取知识构建一个包括疾病问题和结构化知识的中文疾病数据库, 用于中文疾病的智能问答诊断系统;朱超宇等人[20]在新冠肺炎(C0VID-19)相 关研究的启发下,总结出基于深度学习的疾病诊断中缺少对其发展程度的描述, 进而自行构建了胸部影像辅助诊断知识图谱,用于提升诊断结果的全面性。利用 知识图谱技术可以辅助医疗行业和领域的大数据分析与决策,根据患者症状、年 龄、检查结果等数据,自动生成诊断、治疗方案,还可以辅助医生检查报告的书 写以及实现诊疗方案智能化分析,有效减少因医生主管因素导致的误诊漏诊情况 发生。
4总结
本文通过对知识图谱构建技术和应用进行了调研和探讨,并且总结了其在构 建技术在可视化和自动化方面都取得了显著的进展以及在各类服务中的应用取得 了重要影响。近年来知识图谱技术受到了越来越多的关注,并在不同领域得到了 广泛应用。建立一个完整、准确、可拓展、可更新的知识图谱,在智能化服务中 处理各种复杂的信息时,提供了准确性和可解释性的结果。因此,如何提升知识 图谱构建速度、如何在异构数据源中提取准确的关键知识、如何构建一个大型中 文数据库实现知识共享等,都是现阶段知识图谱所面临的发展瓶颈问题。
知识图谱的构建和应用不仅仅是构建一个知识存储的数据库,也是制造领域、 医疗领域、教育领域等智能化发展的基础,更是下一个智能化浪潮的趋势,为各 个行业带来新的发展机遇。
参考文献
[1]陈明,朱珏樟,席晓桃.基于知识图谱的花卉病虫害知识管理方法J].农业机械学 报,2023,54(03):291-300.
[2]何玉,张晓冬.基于SpERT-Aggcn模型的专利知识图谱构建研究[J/OL].数据分 析与知识发现:1-14[2023-04-23].
[3]丁领兵,刘学军,崔北亮.基于动态知识图谱和深度神经网络的会话推荐方法[J]. 计算机工程与设计,2023,44(03):746-754.
[4]Bellomarini L, Sallinger E, Vahdati S. Knowledge Graphs: The Layered Perspective[J]. Knowledge Graphs and Big Data Processing, 2020, 12072: 20-34.
[5]黄贺瑄,王晓燕,顾正位,刘静,臧亚男,孙歆.医学知识图谱构建技术及发展现状 研究[J/OL].计算机工程与应用:1-18[2023-04-23].
[6]邹安琪,陈艳平.面向税收条例的知识图谱构建方法研究[J/OL].软件导 刊:1-6[2023-04-23].
[7]李小龙,孙水发,唐庭龙等.基于超声检查报告的乳腺癌诊断知识图谱构建 [J/OL].武汉大学学报(理学版):1-10.
[8]胡杰,李源洁,耿號等.基于深度学习的汽车故障知识图谱构建[J].汽车工 程,2023,45(01):52-60+85.
[9]杨玉莹,赵学胜,刘会园,彭舒,吕源鑫.基于地表覆盖数据的湿地知识图谱构建 [J/OL].地球信息科学学报:1-12[2023-04-23].
[10]Ferrucci D, Brown E, Chu-Carroll J, et al. Building Watson: An overview of the DeepQA project[J]. AI magazine, 2010, 31(3): 59-79.
[11]洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的 设计与实现J/OL].世界科学技术-中医药现代化:1-8.
[12]章皓洲,胡兵,冯端宇一个基于金融混合数据的智能问答模型[J/OL].四川大学 学报(自然科学版),2023(01):25-30.
[13]Xiaohan Zou. A Survey on Application of Knowledge Graph[C]//.Proceedings of 4th International Conference on Control Engineering and Artificial Intelligence (CCEAI 2020).,2020:141-151.
[14]张中秋.基于改进Apriori算法的商品智能推荐[J].科技创新与应 用,2023,13(04):47-50.
[15]赖文彬,郑双浩,陈飞.面向金融领域的智能推荐系统应用研究[J].金融科技时 代,2023,31(02):40-45.
[16]冯倩.面向智能推荐电视服务的产品体验设计探索[J].广播电视网 络,2023,30(01):68-70.
[17]赵月,任永功,刘洋.基于MapReduce的改进的Apriori算法及其应用研究[J].计 算机科学,2017,44(06):250-254.
[18]陈全福,叶焕文,杨荣源等.基于案例库构建中医临床决策支持系统[J].广州中 医药大学学报,2016,33(04):585-587.
[19]Wang X, Wang Z. Question answering system based on diease knowledge base[C]//2020 IEEE 11th international conference on software engineering and service science (ICSESS). IEEE, 2020: 351-354.
[20]朱超宇,刘雷.基于知识图谱的医学决策支持应用综述[J].数据分析与知识发 现,2020,4(12):26-32.
【本文地址:https://www.xueshulunwenwang.com//yixuelei/yixueyingxiang/9195.html

上一篇:基于域适应的医学影像 分析方法研究

下一篇:没有了

相关标签: