第一章 绪论
肺是发病率和致死率最高的人体器官之一,每年有数百万人死于肺癌。肺结节 是肺癌的早期征兆,推动 CT 图像上肺结节检测的研究,对支持肺癌的诊断和治疗有 重要意义。医学影像诊断教学的重点之一就是用肺部 CT 对病灶进行判断。从肺部 CT 中对肺结节进行精确诊断是医学生必须要掌握的临床实践技能。医学生需要通过 对不同状态下的机体进行病理特征分析,从而建立起系统的知识体系,并深刻理解 肺癌的诊断特点,为病人提供有效的临床治疗。目前的中国,学生多但临床经验丰 富的教师资源紧缺,导致了在课堂上教师无法照顾到每一位学生,增加了学生的学 习难度和教师的工作量。实现医学影像的自动化辅助诊断教育,为缺乏临床经验的 医学生提供可参考的诊断结果,可以极大的帮助学生灵活、快速的掌握知识。本章 首先从医学影像学专业教学的实际需求出发阐述论文的研究背景与意义,并介绍国 内外相关工作的进展。在此基础上,对论文的核心思路、研究内容和组织架构进行 介绍。
1.1课题背景与研究意义
随着社会的发展进步,医学成像技术[1]被广泛使用。为了培养医学生扎实的医学 基础,为医院输送更多具备完善的现代医学影像学知识体系的优秀医生,医学影像 学专业应运而生。优秀的影像诊断学人才,需要能够适应现代医疗环境并具有扎实 的影像诊断学基础,如何培养出这样专业的影像诊断医师,是目前医学影像教育业 面临的重要问题。
医学影像诊断教学的目的就是为了让医学生通过图像直接观察并理解病人身体 的内部组织结构、病灶信息等,也称之为读片。读片技能[2]是医学影像学的基础,是 医学生必备的临床技能。但在目前的传统教学方式中,老师只能在有限的课堂时间 内带领学生集体阅片。这种方式难以让学生真正掌握相应疾病的病灶特征和对于疾 病的判断能力,并且传统的教学方式只能依靠教师在课堂上对病灶的手工标注,学 生缺乏课后的练习,难以快速构建完善的知识体系。当前由教学手段的落后所导致 的学习者难以掌握体系化临床知识和诊断经验与目前医院内对医学影像诊断专家的 缺乏形成了鲜明矛盾。
肺脏是人体内发病率最高的器官之一[3],我国将近有 1亿人遭受着肺病的困扰,
1 同时在全球范围内,每年将近有 500 万人死于肺癌,但大部分肺病难以在早期发现, 仅能在肺部组织中检测到肺结节的存在,因此肺癌重要的早期诊断方法就是肺结节 的检测。在CT影像的体检筛查中,将肺部结节尽早检测出来,并对其进行准确的诊 断分析,令患者及时得到正确的治疗,可以极大地提高肺癌治愈的概率。而目前医 院里CT影像诊断高级医师的缺乏,导致许多早期病人难以得到及时的诊断耽误了最 佳治疗时间。为医院输送相关人才是现在影像教学的最终目标,但抽象的教学内容 和传统教学手段的落后都阻碍了教学活动的开展,设计并实现一款能对肺结节精准 分割分类的医学辅助诊断教育系统来辅助医学生的诊断学习是加快优秀CT影像诊 断高级医师培养速度的有效方法。
在不断进步的信息技术的强力帮助下,我国正在从传统教育逐步转型为信息化 教育,先进的技术为教学模式和教学方法的创新提供了强有力的支持。计算机技术 与教育的结合,不仅激发了学生的学习兴趣,使其能够快速的建立完善的知识架构, 并且可以培养学生独立思考的能力[4]。但该类系统的主要目标是为医学生提供针对肺 癌筛查的课后练习,只有具备较高的正确率才具有参考价值,而当前的网络往往因 为网络自身的限制而无法保留肺结节边缘的结构特征,而边缘信息的完整性对后续 分割有着重要影响,本文研究出一种可以保留更多边缘信息的端到端的分割模型以 及分类模型从而进行更高效准确的肺癌检测,为了解决肺部结节体积较小,形态大小 不一,且边界表现模糊,难以被检测的问题,本文将肺结节检测任务分为分割和分类 两个步骤,通过分割先将肺结节这个小目标从肺部CT中分割出来,去掉数据集中与 任务无关的背景区域,使得网络能够更好的学习肺结节特征,然后再对其进行分类:
1.设计并实现可以辅助肺癌诊断的教学系统方便医学生的学习。该系统通过深 度学习对肺癌进行准确检测,给学生提供准确参考,有利于学生在课后通过练习来 巩固课堂知识,避免传统教学方式单一的教学结构带来的学生难以掌握知识的弊端, 提高了教学水平。
2.肺结节的分割。为了降低学生学习难度,将肺结节从肺部组织中分割出来, 可以使学生更加直观的观察肺结节特征,使学生可以灵活的掌握枯燥难懂的知识, 有效的提升医学生的学习兴趣,帮助其快速构建完整的知识体系,并为肺结节的良 恶性分类任务去掉了大量无关区域,降低后续分类网络对学习特征的难度。
3.肺结节精检测。将分割出来的肺结节作为候选结节,进一步精检测并输出对 肺结节的良恶性分类来给医学生提供精准参考,有利于学生总结和理解相关知识,
2
避免传统教学模式中学生只能通过课堂上老师的有限时间内的讲解获取知识的弊端。
综上所述,深度学习对肺癌医学影像教学关键技术的研究具有重要意义和应用 价值。由于肺结节目标过小,且形状多变并时常与其他组织产生粘连,使得肺结节 的精准分割成为计算机辅助肺癌诊断医学影像教学系统中的技术瓶颈,阻碍了医学 教育的发展,基于深度学习对肺癌医学影像教学关键技术的研究有助于解决这一难 题。
1.2国内外研究现状
本节将从计算机辅助教学和当前主流的肺结节分割检测算法等方面进行研究现 状分析。
1.2.1计算机辅助医学影像教学
20 年纪末,美国政府提出建设“国家信息技术设施”计划,随后为了能让信息 技术在教育教学领域的应用更加广泛,美国政府提出了数字化学习的教育目的;2005 年美国政府再次重新颁布教育计划,更加注重学生的中心地位,为学生的信息化教 育和数字化学习创造条件和框架。一个合格的医学生必须掌握常规放射学、CT等操 作技能,并具备常见病的影像诊断能力。在美国等发达国家中,医学影像教学往往 采用多种形式相结合的模式,比如名师讲座、小组讨论、临床实践等,并且需要长 达三四年的实践时间。而我国传统的教学方式中主要的授课方式包括课堂板书和多 媒体课件,这种单一的授课模式往往会让学生对枯燥繁重的课业产生排斥心理,不 利于学生对知识的学习和理解。并且这种教师为主,学生为辅的关系中,由于教师 数量远远少于学生数量,使得学生难以享受到一对一的精心教导,对教学质量的提 高有极大的负面影响。我国教育部也在1999年将计算机课程纳入全国中小学课程中, 并且在 2004年颁布的《中小学教师教育技术能力标准(试行)》[5]中对教育技术能 力做出明文规范,这一举动为我国发展信息化教育提供了基础和条件。近年来,政 府越来越重视教育信息化的发展,针对教师的信息化技术培训越更加频繁,这一切 都为计算机辅助医学影像教学的发展提供了良好的土壤。
而对于医学生来说,他们的知识来源只有教师的课堂讲授,但目前国内的授课 方式主要通过教师在课堂对肺部病灶信息利用多媒体进行展示。但课堂时间有限, 学生往往很难将老师传授的知识,转化为相应的个人认知结构。因此,借助人工智 能等信息技术,为学生打造一款具有极高分割准确率的肺结节分割系统,在课堂以
3
外的其他场景里为学生的练习提供参考,提高学习者的自主学习能力和独立思考能 力,降低认识负荷。
虽然目前我国的计算机辅助医学影像教学得到了很好的整好,但对病灶分割不 精准和良恶性分类精确率低仍然是有待攻克的一大难点,只有提高病灶的分割准确 率才能为学生提供准确可靠的参考,才能提高学习效率,增强社会对计算机辅助医 学影像教学的信息。
1.2.2肺结节检测方法
随着医学图像领域的迅速发展,国内外专家针对肺结节检测进行了一系列的研 究。目前,由于深度学习优异的分割效果和分割速度,使得深度学习被广泛应用于 医学图像处理领域,研究者们也开始致力于采用深度学习方法对肺结节进行分割的 研究。2014年,LongJi6]等人提出了图像分割领域的开山之作:全卷积网络(Full CurvationNetwork,FCN),是一种不同于传统CNN的网络架构,用1*1卷积核取 代了传统卷积网络中的全连接层,仅由卷积、池化等卷积网络的基本单元构成。这 种网络可以适应任意尺寸的输入,直接输出原尺寸分割图。它可以极大的减少网络 参数量和计算复杂度。2015 年, Thomas Brox[7]等人,设计出的对于小目标分割具有 良好效果的U-net模型不仅分割效果优异并且结构具有很强的扩展性,自提出以来就 受到研究人员的广泛关注。2016年,Milletari[8]等人将CNN与Hough voting的概念 相结合提出了一种可以完全自动定位和分割ROI区域的分割网络,将该网络应用于 医学数据集的分割并采用不同维度的数据(2D, 2.5D和3D)进行训练和验证。同 年,Kleesiek J[9]针对3D的医学数据集提出了一种端到端的3D卷积神经网络用于 MRI图像中大脑的提取和分割。2018年,Yu Gu[10]等人提出一种利用三维深度卷积 神经网络结合多尺度预测策略进行肺结节检测的计算机辅助检测(CAD)方案,其 中包括多尺度立方体预测和立方体聚类算法。2019 年, Fausto Milletari[11]将残差网络 和3D U-net相结合,提出了三维图像分割网络Vnet。Vnet是3D图像分割end2ent 模型,它基于3D卷积,对于三维体素数据组成的CT图像来说,它能保留更多的特 征信息。并且在具体实现中,由于用卷积操作代替池化操作后反向传播过程中不再 需要将池化操作的输出映射到输入,因此该操作可以节约系统内存。上述深度学习 算法中具有对称编-解码结构的三维分割算法在肺结节分割任务中已经取得了一定成 效,但目前仍面临肺结节特征信息学习不充分、分割精度不够的问题,本文针对上
4
述问题提出一种新型网络对肺结节进行分割。
1.2.3肺结节分类算法
目前针对肺结节的良恶性分类任务主要有传统的机器学习或者深度学习两种手 段;在传统算法中,主要是利用数据集中不同区域的灰度差异、聚类等原理实现对 肺结节的分类。2016年,Frozen]等提出了一种肺结节分类方法,是在肺部CT影像 上分别采用人工爬虫(AC)、玫瑰图算法(RoseDiagram)以及结合了人工爬虫和玫瑰 图算法的混合模型来提取纹理特征,并在LIDC-IDRI数据集上进行了分类实验;2018 年,Costa[13]等人利用平均系统发育距离和分类多样性指数来提取纹理特征并结合遗 传算法以及支持向量机对肺部结节的良恶性进行了分类;但是上述传统算法对于人 工的依赖性极高,并且分类精度不能满足诊断需要,于是可以自动提取特征信息并 具有更高分类精度的深度学习网络开始被研究人员广泛应用于肺结节的分类任务。 Kumar[14]等人设计并提出了一个计算机辅助诊断(CAD)系统,该系统使用自动编 码器提取深层特征信息来训练一个将肺结节良恶性分类网络;2019年,Yxie[15]等人 提出了一种半监督对抗分类(SSAC)模型,该模型可以通过使用标记和未标记数据 进行肺结节良恶性分类。考虑到CT影像数据集的三维特性,为了更直接的对肺结节 进行特征提取,近年来研究人员开始着手基于三维网络对肺结节良恶性分类的研究, 通过三维卷积核来提取特征信息,能更好的保留了肺结节的空间特征信息,使得分 类的精度进一步得到了提升。R.Dey[16]等人将3种3D卷积神经网络:3D CNN、3D DenseNet和一种具有多输出的增强型3D DenseNet应用在公用数据集LIDC-IDRI上, 并对其分类进行评估后发现其分类效果优于大多数方法;2019年,S.Shen[17]提出了 一种新的可解释的深度分层语义卷积神经网络(HSCNN),以预测在计算机断层扫 描(CT)扫描中观察到的特定肺结节是否是恶性的,该网络提供了低级语义特征和 结节恶性肿瘤的高级预测两种输出。上述算法中基于3D CNN的算法在肺结节分割 任务中往往可以取得更好的效果,但目前仍面临网络消耗资源过多、训练时间过长、 分类精度不够和网络容易过拟合等问题。本文针对上述问题提出一种新型分类网络 对肺结节的良恶性进行判断。
1.2.4研究现状总结
医学影像诊断教学的最终目的是培养能够综合分析临床资料并独立解读CT病 理影像的学生,为了提高教学效率,目前常将计算机结合至教育领域实现教学内容
5
可视化和智能化。而为了提供效率更高、成本更低、准确率更高的的肺癌辅助诊断 教学系统为医学生提供参考,目前研究者致力于创新基于深度神经网络的肺癌诊断 算法,该类算法不仅无需手动提取特征而且通常拥有更高的准确性,因此本论文针 对肺部CT影像的基本特征,创新了分步的肺癌诊断算法。首先,通过AVnet分割网 络将肺结节从肺部 CT 影像中分割出来并作为候选结节输送至本文所提出的创新分 类网络L-VGG中对肺结节良恶性进行分类。
1.3本文主要工作
1.3.1基于 AVnet 网络模型的肺结节 CT 影像分割
本研究的工作主要面向医学生,目的是为他们的学习保驾护航,因此本文的目 标是进一步提高模型的准确率。目前的分割算法存在着在肺结节分割任务上的鲁棒 性较差,模型精度不够等问题。这些问题是由医学数据集样本数量少、分割目标过 小且肺结边缘特征提取困难所造成的,为了解决上述问题,本文提出了一种创新型 分割网络AVnet o
该网络沿袭了 U-net网络中编码器-解码器的对称网络结构,并结合了多种主流 优化器,包含 Batch Normalization (BN)、Droupout、残差块(Residual block)以及 注意力机制(Attention Mechanism)o本文通过在公用数据集LUNA16上进行肺结节的 分割实验,测试该网络的分割性能。通过实验结果的对比证明AVnet网络对肺结节 肺结节分割任务具有更好的分割效果和更高的鲁棒性。
1.3.2基于 L-VGG 网络模型的肺癌分类
本文用于肺结节的良恶性分类网络测试的数据集是上述分割网络对于LUNA16 数据集的分割结果,通过分割的网络去除了 CT中大量与分类任务无关的区域后,使 得模型能够更好的学习肺结节特征信息;但由于良恶性肺结节的特征相差不大,且 肺结节形状大小多变,可以是具有单发性的独立结节也可以是具有多发性的弥漫性 分布结节,故在不同病例的肺部CT影像上,它的纹理、形状、大小差别较大,这增 加了模型学习特征的难度,从而进一步导致分类效果欠佳。为了学习到对提升模型 分类效果更有效的特征信息并尽可能减少特征信息的丢失,本文以VGG16作为基础 网络,结合残差块(Residual block)的思想来实现层融合,进行多尺度的特征融合 并对池化层和全连接层进行一定删减后,提出一种创新型网络L-VGGo使用该网络
6
对肺结节进行良恶性分类实验,将训练得到的L-VGG最优模型与其他网络模型做对 比,证明该网络较其他模型具有更好的肺结节良恶性分类效果。
1.3.3基于 AVNet+L-VGG 算法的计算机辅助诊断教学系统
本文从医学教育领域的实际需求出发,设计并实现了一款面向医学生的肺癌辅 助诊断教学系统,该系统结合了 AVNet分割网络和L-VGG分类网络实现了肺结节的 精准分割和良恶性分类,为医学生提供可靠的第二诊断意见。
1.4论文结构安排 本章为绪论,主要介绍本文所提实验的研究意义、国内外研究现状,以及该研 究当前所面临的研究困难和有待解决的教育问题。并简单介绍了本文的创新点。本 文分别采用五个章节讲述正文内容,后续的章节详细安排如下:
第二章,介绍了肺结节、肺部CT图像和深度学习的基础理论,并对当前主流的 医学分割模型进行了详细介绍。
第三章,主要介绍本文提出的创新肺结节分割算法AVnet,并从图像预处理开始 对AVnet网络的整个处理过程和实现流程展开详细介绍。然后对论文提出的肺结节 分割方法的网络框架以及训练参数做出详细介绍,最后对该网络与其他网络的分割 效果做对比分析。
第四章,主要介绍该章节中提出的肺结节良恶性分类算法L-VGG。对L-VGG 分类网络的结构框架以及训练参数做出详细介绍,最后将该网络与VGG系列网络中 的其他网络的分类效果做对比分析。
第五章,从医学影像专业对辅助诊断教学系统的实际需求出发,分析目标群体 的必要功能需求和非必要需求。设计并实现了针对肺部CT图像数据的肺癌诊断教学 系统,并对其前端界面和交互功能进行展示。
第六章,本章对该研究的所有工作以及文章的所有内容分析总结,对成果的不 足进行考量分析,对后续研究工作做出展望。
第二章 基础理论
2.1肺结节结构简介
肺结节是临床中一种常见的病理现象,包括恶性和良性结节。该结节缺乏特征, 并且具有多样化、随机化和不规范化的特点,故而难以诊断,为我们的临床处理带 来了许多难题。目前,我们将肺部中直径小于等于30mm、边缘清晰且完全被肺实质 包围的圆形或椭圆形异常组织称为肺结节。该类结节由于比正常肺部组织更加坚硬, 所以在CT扫描中通常以白色的斑点或者白色阴影被显示出来。
恶性肿瘤[18]的概率取决于肺结节的密度,根据结节密度可分为实心结节(SD)、 部分和混合实心结节(mGGN)和玻璃质密度结节(pGGN)。其中,部分实心结节 的恶性概率最高,其次是玻璃体密度结节和实心结节。肺部结节的诊断是基于大小、 形状、边缘、内部特征和随访期间的动态变化。在外观上,结节的大小与其恶性可 能成正比,恶性结节往往呈分叶状,有脊和刺,而非分叶状的边缘可能呈现锐角和 纤维带。周围的纤维区或胸膜增厚往往是良性结节,恶性肺结节的边缘通常清晰但 不发亮,而良性、非炎症性肺结节的边缘可能清晰、锐利或发亮。肺结节的结构也 可以决定它是良性还是恶性,例如局部的壁增厚和支气管包裹或有不规则管腔的包 裹性支气管更可能是恶性的。在不存在变异性肺结节的情况下,CT成像可以更准确 地评估结节与结节内及周围血管的关系,有助于对肺结节的良恶性做出准确判断。
肺结节在肺部的存在形式多变,形态不规则,常与其他组织粘连,上述肺结节 特点为肺结节的分割带来了非常大的挑战与难题,但肺结节是当下检测肺癌的重要 手段而肺癌具有病程快、恶性强、预后差的特点,对病人的生命和幸福具有严重的 威胁,所以人类对肺结节诊断的研究从未停止。恶性结节患者如果能早发现、早诊 断、早治疗则可显著提高生存概率,但患者在早期缺乏明显病理特征,只能通过肺 部 CT 进行肺结节的观察诊断。
2.2肺部 CT 图像介绍
肺部的病变只有尽早发现尽早治疗才能获得较好的治疗效果。但肺癌在早期时 没有典型症状,只有通过经验丰富的医生对临床表现、体征以及影像学和病理组织 进行检查才能做出判断,而其中医学影像学的检查对于肺癌的检测具有重要意义。
9
在临床诊断中,只有根据影像学的检查和医生的判断才能做出相应诊断。肺结节的 诊疗更是肺癌早期诊断的重要方法,因此对于肺结节的检测具有重大临床意义。
CT图像,即计算机断层图像,是由电子计算机利用X线束、Y射线、超声波等 结合高敏探头对受检人身体的一部分逐面进行扫描,能够快速和清晰的对反映病人 的身体内部病灶组织信息。它不仅成清晰快速并具有价格低廉的优点,目前被广泛 应用于多种疾病的筛查。比起昂贵的核磁共振检查,更适合中国这样人口基数大且 肺癌高发的国家。CT图像是三维的图像,并非简单的由像素点构成,它更像是一个 文件系统,由多个二维图像堆叠形成。在对于CT图像进行处理时,我们需要根据实 际情况采用第三方工具包所提供的接口来读取所需内容。
肺部CT图像是借助不同器官对于X光由于不同反射密度而造成的不同强度反 射光的原理,使用探测器接收光线对人体胸部进行逐层扫描,并通过光电、模数转 换将其CT值映射在-1000到1000的范围内所形成的清晰图像。肺结节在CT图像中 以肺内圆形状或者类圆形状的局灶形密度增高影表现出来。作为生长在肺部内的病 灶,肺结节大小不一、形状多变,经常与周围其他组织产生粘连,并且具有良恶性, 即形状较小的结节更可能是良性,而形状较大的结节则偏向于是恶性,因此对于肺 结节的识别和判断,往往需要临床经验丰富的医生运用专业的医学知识来进行诊断。 本次实验数据集LUNA16中的肺部CT如图2.1所示。
图 2.1 肺部 CT 图像
对于处于学习阶段的缺乏丰富临床经验的医生学来说,他们缺少练习的样本和 一对一的指导,尤其是对于在三线或者更小城市学习的医学生,教学条件的落后使 他们更加难以掌握复杂枯燥的相关知识并建立完善的知识体系。因此,我们面向医 学生选取肺部 CT 影像作为研究对象,使本研究在教育行业具有实际的应用意义。
10
2.3深度学习相关理论
2.3.1卷积神经网络
为了更好的处理大尺寸图像任务,研究人员在传统神经网络的基础上引入了卷 积结构,很好的解决了全连接神经网络参数过多的问题。而具有前馈网络结构的卷 积神经网络也由于在图像领域优异的表现和理解能力常常被用于图像分割、分类等 相关任务中。而卷积神经网络能取得优异成绩离不开其卷积结构中的局部感受野、 权值共享、池化。这三个步骤不仅减少了模型中的训练参数和网络占用的内存,还 一定程度的缓解了深度学习中棘手的过拟合问题。
在CNN网络中,数据集通过输入层输送至网络后,通过一系列的卷积和池化操 作来提取特征,这也是CNN网络中的核心步骤,再将提取到的特征信息输送至全连 接层中进行压缩并实现分类,最后在将其输送至输出层,并由其输出网络的训练结 果。CNN卷积网络的结构图如图2.2所示。
池化层 全连接层
图 2.2 CNN 卷积网络的结构图
卷积层是卷积网络中最基础的部分,它的主要作用是提取图像特征并用于训练 网络。在卷积操作中,定义一个矩阵作为卷积核在特征图上滑动来提取特征,卷积 核的尺寸越大,则感受野越大。网络的训练过程也是卷积核的调参过程,卷积核的 参数会在训练时的反向传播中不断优化,直到得到最优模型。浅层的卷积层靠近输 入,故浅层的特征图经过的卷积的次数较少,提取到的特征噪声多而抽象性低,但 具有更多空间信息。深层的卷积可以从迭代后的特征图中提取到更复杂的特征信息。 在实际的操作中会根据实际需求确定不同的过滤器数量。一定大小的输入图像和过 滤器,加上卷积操作的相关参数,便能生成确定大小的输出矩阵。而与卷积操作相 关的参数有:padding、stride。其中padding是指为了缓解卷积过程中边缘信息提取
11 不充分和卷积后的矩阵尺寸变小问题,而在输入矩阵四周补0的操作。而stride是指 进行卷积运算时,过滤器在输入矩阵上移动的步长,当 stride>1 时,将缩小卷积后输 出图像的尺寸。下图 2.3 所示,为卷积操作相关步骤。
图 2.3 卷积操作
在池化层,进行了下采样操作。这相当于对卷积提取的特征信息进行选择,即 减去空间域中的特征图维度,扩大感受野,该操作使得网络模型可以提取到更高级 抽象的特征信息,使提取到的特征信息范围进一步扩大,并在下一层减少输入特征 图的尺度维度,从而大大降低计算成本和参数数量。总结之前的工作,已经证明卷 积层具有特征不变性,并且能够有效地防止过拟合。目前池化层常用的方式有:最 大池化、平均池化、全局平均池化和全局最大池化。图 2.4 所示为最大池化操作,它 将输入特征图的长、宽尺寸都减半,但不改变通道数,并输出当前池化感受野区域 内的最大值。
图 2.4 最大池化操作
全连接层一般出现在卷积网络中的末端,其用途是实现特征分类。在该层中主 要通过将卷积和池化操作中提取到的二维特征压缩成一维向量实现特征空间到样本 标记空间的映射。例如,进行十分类任务时,将尺寸为 1*1024的特征图输入至全连 接层可以得到尺寸为1*10的输出。全连接层的输出经过softmax函数激活后,得到 10个处于[0,1]的代表着概率分布的数据。全连接层结构如图2.5所示。
12
图 2.5 全连接层结构图
2.3.2三维卷积神经网络
本章所采用的数据集由肺部CT图像所组成,在CT图像扫描过程中每向下5mm 就采集一张图片,因此CT图像序列可以看作是一个离散的三维图像。对三维肺部 CT 数据集上进行肺结节分类的问题,实际上是对三维图像进行分类,相较于传统的 二维卷积核,三维卷积核能够更好的提取三维CT图像中的特征信息,这些信息中包 含着三维空间特征和纹理特征,可以对分割模型的性能产生正向影响。
三维卷积神经网络[19]是一个含有庞大参数体系的网络模型,其中主要包含 3D 卷积层、3D池化层、全连接层和softmax层。其中3D卷积层由三维卷积核组成; 3D 卷积可以看作是多个 2D 卷积增加深度通道形成的卷积,深度通道可以理解为视 频的时间帧数或者多个二维切片堆叠形成的立方体,因此三维卷积被广泛用用在视 频分类、三维医学图像分割中。在 3D 卷积中,由于卷积核和网络的输入数据都是三 维的,且卷积核通道数一定小于输入数据的通道数,故3D卷积相比于2D卷积,多 了一个可以滑动并提取特征的方向——深度通道方向。
然而医学CT影像不同于三通道的自然图像,它可以看作是由数个自然图像堆叠 形成的[20]。二维卷积核用于自然图像的特征提取,通常只需要在空间维度上进行滑 动卷积。而在医学CT影像中如果想要充分完善的提取特征,二维卷积和还需要在通 道区域上进行滑动卷积,并将提取的空间信息和通道信息进行融合,才能得到较为 完善的特征信息。但这种方法忽略了空间和通道域上的联合特征信息,提取到的特 征信息对于CT影像的表达能力较弱,会对网络模型的分类效果产生负面影响,所以 本章采取三维卷积核在三维的特征图上滑动来进行信息提取。
13
2.3.3残差结构
在深度学习中,深层次的网络可以提取到对模型训练更有帮助的特征信息,即 更高级抽象的特征信息,从而得到更好的网络精度,但在实践中研究人员发现,当 网络层数增加到一定数量时再增加层数不仅会增大计算资源的消耗也会导致网络退 化现象使得模型出现过拟合和梯度消失或梯度爆炸问题。
残差结构就是为了解决上述问题而被创造出来的。残差结构的出现,可以说是 开启了深度学习在计算机视觉领域应用的新时代。当网络退化时,残差结构能够将 浅层的特征信息直接传到高层,此步可以保证1+1层网络所包含的特征信息一定比/ 层的多。
假设神经网络的输入是X,h(x)是输出,在残差结构中需要学习的函数是f(x) = h(x)-x。反映在残差块中的表示如公式(2.1)所示:
xi+1 = xi + f(X)
残差块就是通过恒等映射和快捷连接来实现不同层数的网络直接相连,使得网
络变得更深;图2.6是残差结构的示意图,右侧的曲线是保证残差操作可行性的恒等 映射,它将低层特征信息直接传入深层网络,左侧的f(xi)是残差部分,它的目的是
增加网络的深度,故其中包含着卷积操作。
在残差结构中,X1和X1+1中的特征图维度可能并不相同,这时候需要用1*1卷积 核进行维度调整,此时h(X])=W'x,其中W'是1*1卷积操作,1*1卷积核对提升模型 性能的能力有限,通常只在放大或缩小维度的时候才使用。
引入了残差结构的的网络,可以减少梯度传播的损失,使梯度稳定的回传,一 定程度缓解了梯度消失问题,同时由于残差较小,残差网络需要学习的内容少,使 学习更加容易。同时该模块使输入特征直接映射到输出,保证了输出特征的原始完 整性。
2.3.4BN 算法(Batch Normalization)
在深度网络的训练过程中,添加BN层,可以使得批量样本实现归一化,即对 于添加了 BN层的卷积层中的数据会被转化为均值为0、方差为0的状态。当深度神 经网络的每一个卷积层都添加了批规范化层(BN层)后,网络中所有层的分布都是 一致的,故网络更容易收敛。
同时,在每个卷积层后放置批规范化层(BN层)。由于在网络训练过程中反向 传播会对模型全局调参,为了避免由于调参后的模型参数值分布不均匀导致模型收 敛速度变慢,并通过平均值和标准差对卷积后输出特征的信息进行自我调整,增强 输出特征信息的稳定性,故引入了 BN层。该层不仅可以加快模型的收敛速度还使 得模型训练过程更加稳定。
在模型训练过程中,每一个批次的数据均值卩和方差。的计算公式分别如公式
(2.2)、 (2.3)所示:
(2.2)
(2.3)
其中,禺为批量规范化数据处理的样本。在BN层中,求得均值卩和方差。后,对该 样本进行数据归一化操作,经过调整后遵循均值为0、方差为1 的正态分布,公式如(2.4) 所示,其中,£取一个极微小的正数,用来确保分母不为0。
15
为了保证归一化操作不会破坏网络所学习到的特征分布我们对每一个神经元引 入了可学习重构参数Y、B,让我们的网络可以学习恢复出原始网络所要学习的特 征分布:
y; =/ixi +A
其中,yi 为样本标签,Y (k) = JVar[x(k)], B(k)= E[x(k)]。
2.2.5注意力机制
2014 年 Volodymyr Mnih[21 ]就在《Recurrent Models of Visual Attention》一文提出 了一种可以自适应选择区域或位置提取信息的新型递归神经网络模型,即视觉注意 力模型;而2017年发行的《Attention is all you need》中作者Ashish Vaswani[22]又提 出了一种省去了递归和卷积完全基于注意力机制的模型。自此以后注意力机制开始 在NLP和计算机视觉(CV)领域收到广泛欢迎。
注意力机制相当于给机器添加人类的感知力和注意力,使机器在学习过程中能 够有意识的去感知和分辨数据并对其是否重要做出判断。注意力机制使网络可以自 行加强重点信息的学习,并抑制无关信息。比如当机器识别图像中肺结节良恶性的 时候,该机器的注意力应侧重于图片中肺结节的特征,而减少关注背景信息。换言 之,注意力机制就是让机器在训练过程中重视对于任务有重要作用区域的特征学习, 而选择性忽视对与任务无关的区域。
现阶段,注意力机制[23]可以划分为:自注意力机制、硬注意力机制和软注意力 机制。在软注意力机制中,对每一个输入项的分配权重在0-1 之间,也就是与目标相 关的信息分配较高权重,而无关信息分配较低权重。因为对大部分信息都有考虑只 是考虑程度不一样,所以总体计算量较大。硬注意力机制对于输入项的分配权重非 0 即1,即只考虑数据中需要注意的ROI区域,直接舍弃于任务不相关的区域。这种 简单粗暴的方式与软注意机制相比,具有减少时间成本和资源消耗的优势,但也可 能造成有用信息的丢失。而自注意力机制对于权重分配是由输入项之间的关系决定 的。与其他两种注意力机制相比,在处理很长的输入信息时候具有并行计算的优势。
16
注意力机制的主要作用就是定位与任务相关的 ROI 并抑制无关区域,本文要介 绍的软注意力机制根据其原理也可以将其分为通道注意、空间注意。本实验主要针 对于 3D 数据集,为了能够更好的更好的提取通道特征信息,选择采用的注意力机制 为通道注意力机制。通道注意力的实现可以理解为通过通过神经网络对通道生成一 个掩膜 mask,mask 上的值代表着当前通道的权值。通道注意力机制的结构如图 2.7 所示。
通道注意力机制的实现过程主要包括压缩 Squeeze 操作、激励 excitation 操作和 scale操作。其中压缩squeeze操作在图2.7中标记为Fsgg,该操作的目的是为了对 全局空间信息进行压缩,它通过对空间通道维度进行特征压缩和学习,形成各个通 道的重要性,即将每个二维的通道压缩至一个具体的实数,该数就是对于此二维特 征图的加权赋值,即其重要性。其中的压缩操作就是一个具有全局感受野的池化操 作,故该操作可保证压缩前后特征图的通道数不变。假设H、W和C分别代表高度、 宽度和通道数,当压缩部分的输入特征图维度为H*W*C,则压缩后的输出维度是 1*1*C,经过压缩操作的二维特征图由H*W维变为1*1维,这个过程由全局平均化 实现。
图 2.7 通道注意力机制
激励Excitation操作在图中标记为化丄对,该操作的目的是给经过压缩操作得到 的结构的每一个通道生成一个可以代表其重要性的权重。该操作的实现是通过两个 全连接层实现的,为了更直观的表示各通道之间的重要性,我们接入sigmoid对其进 行映射,将其权值范围限制为 0到 1 之间。即对压缩部分得到的 1*1*C 维度融入全 连接层,得到可以表示各个通道重要程度的权值,将其进行激励到前面特征图对应 通道上的进行操作。
最后在Scale操作中,将象征着通道重要性的权重和原输入的特征图逐通道相乘, 最终得到了对通道信息加权后的特征图。
17
2.4图像分割相关理论
2.4.1全卷积神经网络
全卷积神经网络可以在像素层面对图像进行分类,能够实现对图像中不同语义 的类别进行分类,一般由卷积、池化、反卷积、激活函数和 softmax 组成。全卷积神 经网络的结构示意图如图 2.8 所示。
图 2.8 全卷积神经网络结构示意图
全卷积网络的上采样层,进行一种特殊的卷积操作实现图像分辨率从小到大的 映射。其作用是恢复经卷积网络提取特征后缩小的特征图尺寸大小,以便实现对后 续的图像进行像素级分割。在上采样网络中,主要通过上池化、反卷积和插值技术 实现将图像分辨率变得更高,通常情况下应用的是反卷积操作,即通过对特征图补0 来扩大其尺寸,再对其进行卷积操作。该方法只能恢复其尺寸大小,并不能恢复其 具体元素值。反卷积操作如图 2.9 所示。
输入
图 2.9 反卷积操作
卷积和反卷积操具有对称性。卷积操作中进行的下采样目的是缩小特征图尺寸, 而反卷积操作的目的是为了恢复特征图尺寸。在实际训练过程中,这两种操作相互 配合,由卷积操作不断对语义信息进行抽象,并提取更深层的特征信息,反卷积操
18 作恢复尺寸,这样才能对原图像中的每一个像素都进行分割。
2.4.2U-net 网络原理
2015年由Thomas Brox[7 ]等人,设计出的U-net模型,就带来了图像分割领域带 来了突破性的进展。该网络是一个经典的全卷积神经网络,是 FCN 的一种变体。他 采用了对称的编码器-解码器结构(Encoder-Decoder),由于形似英文字母“U”而得 名U-net,其独特的网络结构使其能够在样本少、目标小的医学分割任务中取得优秀 的分割效果,因此被广泛应用在医学数据集上[24]。
在U-net左侧的编码器中主要进行卷积操作和下采样操作,主要对输入网络的图 像进行特征提取,通过编码实现图像由高分辨率到低分辨率的转换,得到抽象的语 义信息。右侧的解码器主要通过上采样来恢复特征图的尺寸大小,并通过跳跃连接 将编码器和解码器输出的尺寸相同的特征图进行拼接,比起FCN采取特征图像素的 简单相加来融合特征,而U-net采用通道数的拼接以消耗显存为代价,形成了更厚的 特征图以达到有效解决梯度消失和反卷积恢复困难的问题。由于底层的特征中往往 包含着更多的空间信息,而深层的特征则蕴含着丰富的语义特征,U-net中具有的跳 跃连接结构也使得能够保留更加精细的特征信息。下图2.10所示为U-net网络结构。
图 2.10 U-net 网络结构
该网络的左边编码器Encoder是一个全卷积网络,该网络中不包含全连接层,仅 仅通过卷积和池化操作实现下采样。下采样操作会导致特征通道的数量加倍。对编 码器中输出的特征图按照分辨率的大小,自顶向下将每个阶段的特征图定义为 E1、 E2、E3、E4。如图2.11为U-net网络的下采样部分。
网络右边的解码器 Decoder 由扩展路径组成,它接受的输入是编码器输出的具 有丰富特征信息的高层特征图E5。解码过程中进行反卷积操作将特征通道数量减半, 特征图大小加倍。根据特征图分辨率的大小,将解码器的每个阶段的特征图定义为
19
D4、D3、D2、D1。在解码器操作中,我们将反卷积后的特征图与编码器中生成的 特征图拼接起来,例如,D4和E4相互拼接。如图2.12所示为U-net网络的上采样
部分。
2.4.33D U-net
针对医学影像数据集的分割算法,应根据临床的病理特征和数据特点选择卷积 核的维度。CT图像可以看作是多个二维切片(slice)堆叠形成的比表达式为(x, y) 的2D图像多了一个深度(depth)维度的三维图像,其表达式为(x,y,z)。而对 于肺部的CT图像采集时,每隔1mm就需要采集一张,其数据层厚较薄,扫描完整 个肺部需要较多的采集次数,即z轴slice数较多,故对于肺部CT数据集来说z轴 方向的信息更加丰富,采用3D卷积可以有效关联到CT切片之间的上下文特征,并 且由于 3D 卷积核可以在深度方向上滑动,所以它比 2D 卷积更灵活,能学习到更多 的空间信息得到更高级的语义信息,所以本节采用3D U-net来进行肺结节的分割任 务。
3D U-net的网络模型如图2.13所示。模型的输入是预处理后通道数为1的肺部 CT数据,设其尺寸大小为96*96*16,第一层卷积核的通道数为16,故经过第一层下 采样后,特征图变为通道数为16,尺寸为48*48*8。经过四层下采样后,分辨率为 6*6*1,通道数为256。对网络全局来说,由于含有特征图拼接操作,故特征图的最 大通道数为 512。
在解码器中,进行四次上采样操作,将特征图的尺寸恢复至输入尺寸大小,实 现像素级的分割。
20
图 2.13 3D U-net 网络结构
2.4.4Vnet
虽然 3D U-net 网络中的 skip connection 结构能更很好的保存低级特征和高级语 义特征,但针对于小目标肺结节的分割中由于医学影像数据量较少的特点,轻量级 的 U-net 网络分割效果一般,并且容易出现过拟合。但轻量级的 U-net 网络操作空间 大,针对于多模态的医学影像我们针对不同的任务目标在其基础之上对网络进行改 进。例如为了解决编码器中卷积操作过程中前向传播丢失的特征信息的问题,本章 借鉴了一个优秀的3D分割算法Vnet。即在U-net网络的基础上引入能够有效避免信 息丢失的残差模块,生成Vnet网络模型,改进后的网络模型分割精度得到有效提升。
Vnet[11]网络结构如图2.14所示。其网络结构整体继承自U-net网络结果,都是 具有对称的字母“U”型,是具有连接模块的编解码结构。Vnet对U-net网络的改进 在于在原始卷积块中应用了残差模块,并将DiceLoss作为模型训练过程中的损失函数; 残差模块的加入使得U-net网络的深度增加和卷积神经网络的非线性增加,使得每个 卷积块中特征图中都可以同时保留卷积前的浅层特征和卷积后的高级抽象的语义特 征,一定程度上缓解了梯度消失问题,提高模型精确度。同时Vnet同样在网络最后 一层添加 1*1 卷积层和 sigmoid 激活函数实现像素级的语义分割。
融合了 U-net网络和残差模块的VNet网络,也同时继承了这两个网络的优势。 在拥有U-net网络同时保留底层特征信心和深层特征信息的同时,使用残差模块简化 了网络的训练并通过残差模块中的跳越连接促进低层网络和高层网络之间的信息传 播,缓解了梯度消失问题。
21
图 2.14 Vnet 网络结构
本次研究任务针对于医学影像数据集,为了更好的提取空间特征信息,将该网 络扩展成 3D 网络。通过编码器扩大感受野,将输入的图像特征编码成更抽象严谨的 表示,连接部分通过跳跃连接 skip connection 操作将编码器和解码器输出的特征图相 连,使其高层和低层的特征图相融合,而在解码器部分恢复特征图的原始尺寸大小 实现像素级的分类。Vnet网络结构主要包括输出、BN层、卷积层、ReLu激活层、 恒等映射连接单元和输入,而编码器和解码器中都包含残差模块,弥补网络特征的 表达不够准确的缺陷,在每个残差模块之前,对来自低层的特征图进行上采样,并使 用相应编码路径的特征映射级联,达到保留更多特征信息的目的。
2.4.5VGGNet
VGGNet[26堤一系列经典的深度学习网络,在VGG系列网络中不再追求较大的 感受野故摒弃了尺寸较大的卷积核,采用较小的卷积核和较深的网络层次,这是为 了尽可能在保证参数较少的情况下在网络中增加更多的非线性层以更好的学习特征。 在VGG系列网络中,通过研究加深网络层数对网络性能提升的影响,提出了针对不 同分类任务的 6 种网络模型。这些网络由于考虑到空间特征的提取效果和参数的使 用量,故全部使用 3*3 的卷积核。
VGGNet的作者根据卷积层不同的子层数量,将不同层级的VGG卷积神经网络, 分别命名为A、A-LRN、B、C、D、E,这6种网络的网络结构如表2.1所示。
22
表 2.1 VGGNet 系列网络结构图
A A-LRN B C D E
权值层数
11 11 13 16 11 11
输入( 224*224 RGB 图像)
Conv3-64 Conv3-64 Conv3-64 Conv3-64 Conv3-64 Conv3-64
LRN Conv3-64 Conv3-64 Conv3-64 Conv3-64
最大池化层
Conv3-128 Conv3-128 Conv3-128 Conv3-128 Conv3-128 Conv3-128
Conv3-128 Conv3-128 Conv3-128 Conv3-128
最大池化层
Conv3-256 Conv3-256 Conv3-256 Conv3-256 Conv3-256 Conv3-256
Conv3-256 Conv3-256 Conv3-256 Conv3-256 Conv3-256 Conv3-256
Conv1-256 Conv3-256 Conv3-256
Conv3-256
最大池化层
Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512
Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512
Conv1-512 Conv3-512 Conv3-512
Conv3-512
最大池化层
Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512
Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512 Conv3-512
Conv1-512 Conv3-512 Conv3-512
Conv3-512 最大池化层
FC-4096
FC-4096
FC-1000
SOTFMAX
2.4.6VGG16
VGG卷积神经网络模型于2014年被首次提出,同年它在ImageNet比赛中取得 亚军,引起了研究人员的广泛关注。VGG网络的名称源于它的作者,即牛津大学 Visual Geometry Group (视觉几何组)的缩写。VGG网络的创建表明,网络的深度 对模型的准确性有一定影响。
VGG系列网络中使用3*3卷积核对特征图进行卷积来提取特征信息,在池化层 中通过进行感受野为 2*2 的最大池化操作来缩减特征图的尺寸减少计算负荷;其中 该系列网络中最为出名的VGG16网络,该网络中若以池化层作为分界,则可以将整 个网络划分为六个块,每个块中都包含了卷积层和池化层;通过六次叠加这样的块, 实现了底层特征信息抽象提取到更高级抽象特征信息的映射,并且通过池化操作对 提取的特征信息进行筛查选取。并在网络最后加入3 个全连接层来实现”分类器”功 能,其网络结构图如图 2.15 所示。
图 2.15 VGG16 网络结构图
24
第三章 基于 AVnet 网络模型的肺结节 CT 影像分割
机器视觉的基础之一就是图像分割,它是图像处理中的关键一环,是人工智能 理解图像、识别图像的重要手段和必备前提。自 20 世纪 70 年代开始,图像分割就 受到人们的热烈追捧。在图像分割任务中,研究人员将数据集中自己感兴趣的区域 称为目标或者前景,通过对图像中像素点特征、颜色、灰度值以及空间纹理分布等 特征信息进行特征提取和检测来辨识分析目标。由于深度学习算法强大的提取特征 和模型泛化能力,故被广泛应用到图像分割相关领域,例如场景理解、医学图像分 析、视频监控等。由于肺结节分割对于肺癌检测具有重要意义,近年来针对肺结节 的分割得到了研究人员广泛关注,深度学习也理所当然的被应用在肺结节检测任务 上。虽然目前已经提出了上千种的分割算法,担由于缺少通用的分割理论技术导致 不同的算法只适用于特定的领域范围,目前主流的分割网络在肺结节分割任务上的 精度都难以满足教学领域的需求,因此本文提出了一个创新的分割算法AVneto本章 将对该算法的网络结构和训练过程做出详细介绍,并通过对比实验验证该网络比其 他深度学习网络在肺结节分割任务上具有更好的鲁棒性。
3.1AVnet 网络结构
本文针对肺结节体积小、形状多变且经常与周围其他无关组织发生粘连的特点, 提出了 AVnet的肺结节分割网络。现阶段网络模型往往通过加深网络深度来对网络 进行改进,这种只依靠提高网络深度来丰富特征信息的做法只适用于语义特征信息 丰富的数据集,而医学影像数据集样本数量少且分割目标体积小,使得一味堆叠卷 积层的网络并不能取得良好的分割效果,反而容易造成过拟合。下采样操作也会不 可逆转的造成特征信息的损失,并且由于CT图像是三维数据,故使用三维卷积核能 提取到丰富的空间特征。本文因此选择网络深度较浅并具有多尺度融合的的3D U-net 网络作为基本框架。
AVnet网络继承了 3D U-net网络的编-解码对称结构,在编码器中下采样,并在 每一次下采样后输出一个特征图,该特征图通过跳跃连接与解码器中的特征图进行 特征融合再进行上采样。并在3D U-net网络的多尺度特征融合的基础上,参考Vnet
25 网络的思想引入了残差块,来解决由于缺少底层空间信息导致的难以对肺结节进行 定位,致使模型对目标边缘的特征信息提取不充分的问题。残差块和跳跃连接模块 的引入使AVnet模型在保留底层空间信息的同时,实现了底层空间信息和高层抽象 特征信息的融合,增强了网络对小目标肺结节的特征的提取能力。
3D肺部CT影像数据可以看成是由N张2D图像堆叠形成的具有深度的图像块, 由于肺结节体积过小,因此在这N张图像中并不是每一张都能包含了肺结节,而包 含了肺结节的图像层,也存在着大量的无关背景区域,在这种情况下肺结节的通道 信息就尤为重要。为了在控制算力消耗和时间成本的前提下,进一步提升模型分割 性能,AVnet引入视觉注意力机制,这种机制十分适合需要接受和处理大量信息却只 有很少一部分信息是对任务有帮助的深度学习模型,它会加强那些对分割有帮助的 特征信息,抑制与分割无关的特征信息[21]。AVNet网络结构如图3.1所示。
图 3.1 AVnet 网络结构
肺部CT影像数据集中,数据层厚较薄,空间信息较为丰富,为了提高分割效率 本文引入了通道注意力机制对语义信息进行筛选过滤。通道注意力机制更关注描述 通道之间关系,更注重对分割有重要正面影响的特征信息,对于本文使用的3D肺部 CT数据集来说,为了能够更好的实现对肺结节进行分割,提升网络网络性能,抑制 背景噪声对特征提取的影响,使网络更快收敛,AVnet选择在跳跃连接部分增加通道 注意力机制,注意力模块的结构图如下图 3.2所示。假如编码器某一层输出的特征图 尺寸为HXWXC,将该特征图输入至注意力模块中,首先经过池化操作得到各通道
26
的一维特征,最后经过两次全连接操作来学习通道间的关系并实现降维和升维,其 中压缩比例r=16,然后通过sigmoid函数得到各通道处于0到1之间的重要性权重, 通过scale操作中将权重与通道特征相乘,使代表了通道重要性的权重添加到通道上。
图 3.2 注意力模块结构图
AVnet 网络中主干网络上用于卷积的 3D 卷积核尺寸为 5,padding 为 2,stride 为 1。在主干网络上卷积操作不改变特征图的尺寸大小,但网络中起池化层和上采样 作用的卷积层选择了尺寸为2*2*2且步长为2的卷积核,以此减少模型训练的资源 消耗。该网络同样具有对称的编-解码网络结构,并在编解码器中间的桥接部分采用 结合了注意力机制的拼接。在编码器端输入的特征图在编码器部分经过逐层的卷积 池化实现下采样,而在解码器部分又通过逐层反卷积实现特征图尺寸恢复,并在该 组件的最后一层通过1*1 卷积层实现压缩,将最终得到的与输入图像尺寸大小相同 的特征图输入至 softmax 层,实现像素级的分割。网络具体参数如表 3.1 所示。
表 3.1 AVnet 网络参数
卷积层 组成 卷积层 组成
Encoder-1 卷积块X1 Decoder-1 卷积块 X 2
特征通道X 16 特征通道X 128
Encoder-2 卷积块X2 Decoder-2 卷积块 X 2
特征通道X32 特征通道X64
Encoder-3 卷积块 X 2 Decoder-3 卷积块 X 2
特征通道X64 特征通道X32
Encoder-4 卷积块 X 2 Decoder-4 卷积块 X 2
特征通道X 128 特征通道X 16
Encoder-5 卷积块 X 2 Decoder-5 1X1X1 卷积
(中间层) 特征通道X256 (输出层) 通道数2
本章所提出的适合用于小目标肺结节分割任务的算法,是一种端到端的分割模
27
型。该算法实现了多尺度特征信息的融合,使得网络深层也有底层特征信息,从而 提升网络对小目标肺结节的特征学习能力。融合了残差块、注意力机制的 AVnet 网 络具有强大的特征提取能力,对于肺结节边缘的像素特征也有较好的学习能力。并 且解码器中通过上采样将特征图的尺寸恢复到原始图像的尺寸大小,从而实现了像 素级别的分割。
3.2算法整体流程
AVnet 的算法整体流程如图 3.3 所示,将经过预处理的数据集按照 8:1:1的比 例划分三,分别为训练集、验证集和测试集,使用训练集完成模型训练后,在对其 进行测试。
预处理:由于肺部 CT 影像中作为分割目标的肺结节体积较小而分割无关的背景 区域过多且数据集中的ct图像来自不同的机构和仪器,因此为了提高网络模型的效 率,再将数据输入至模型前需要对其进行一系列预处理,再将已经预处理完成的数 据集切割成数据集和测试集。
训练过程:将训练集、验证集输入基于AVnet模型中进行训练,通过反向传播 的方式,对网络模型的参数进行迭代更新使得模型参数达到最优,从而获得最佳模 型。
测试过程:通过将测试集输入到训练好的最优模型中来验证模型的准确性,以 此来评估模型质量。
图 3.3 算法流程图
28
3.3数据集介绍及预处理
3.3.1LUNA16 数据集介绍
本实验使用的LUNA16 (Lung Nodule Analysis 16) [27]数据集,是在2016年针对 肺结节检测任务推出的肺部CT影像数据集。该数据集中CT影像数据为mhd格式, 它们都是低剂量的肺部CT数据。该数据集中每个病例的病理影像都是由多个胸腔的 不同轴向的切片堆叠而成的三维图像。但是该数据集中的影像来源于不同的机构和 采集机器,这导致数据集中包含的切片存在着差距,需要通过归一化才能用于网络 模型的训练。
作为最大公用肺结节数据集LIDC4DRI0OH33]的子集LUNA16数据集删除了切片 厚度大于3mm和肺结节小于3mm的CT影像,将LIDC-IDRI数据集中的1018个低 剂量的肺部CT影像删减至888个;此外,四位有经验的放射科医生在每张CT图像 上独立标注了肺部结节的坐标和直径信息,建立了三个注释区:直径大于 3 毫米的 结节,直径小于 3 毫米的结节,以及未变形的结节。
在LUNA16数据集中,每个病例的病理影像存储都是由mdh和raw共同组成的 [34],他们之间是相互对应的。mhd中存储非图像信息,例如图片大小、像素大小等, 而 raw 中存储三维的病理图像信息。
在 LUNA16 数据集中,同一个病例的 CT 影像中可能会包含着多个肺结节。因 此在 LUNA16 包含的 888 个病例中,总共有 1186个肺结节信息,一共有 551065张 2D肺部CT切片包含了肺结节的位置信息。由于每个肺结节的体积大小不同,所以 每个肺结节所占的切片数量也不相同。
3.3.2数据预处理
本次的任务是从肺实质上将肺结节分割下来,虽然LUNA16数据集虽然为本次 分割任务提供了大量数据,但这些数据由于来自不同机构的成像设备,以至于数据 集中的数据在切片厚度、数量以及成像效果的方面存在差异,并不适合直接输入网 络作为训练集和测试集。并且图片中还存在噪声过多,分割目标肺结节体积过小的 问题,并且由于CT影像中存在过多与分割目标无关的组织和背景,这些组织的存在 对分割任务没有正面的帮助,反而会增加网络的训练难度、延长训练时间、降低模 型精度,因为对数据集进行预处理是分割任务中的重要一环,不仅能够提高模型分 割效率也可以提升模型精确度。本实验中数据集预处理具体流程如图 3.4所示。
29
(1)读数据。作为医学影像数据集的LUNA16,具有自己独特的存储方式。该 数据集中,每一个病例的数据都是由mhd、raw格式组成[]。我们可以从mhd (meta header data)文件中读取数据的具体信息如图像大小、切片大小、像素大小等信息, 而raw存储了像素信息。在读取数据集时,我们需要借助专门处理医学图像的工具 库 SimpleITK 库。
(2)二值化。与传统自然图像的像素值不同,CT图像的像素值反映了身体相 应部位对X射线的吸收程度,测量单位是亨氏单位(HU)。但人们发现,在与CT 相同的X射线照射条件下照射人体,可获得相同的亨氏单位值。HU值与透光性成 反比,即HU值约高,透光性越差,组织密度越高。针对肺部CT影像的分割任务中, 考虑到肺的HU值约为-500,故我们常在对其进行过滤,通常HU值在卜1000,+400] 范围内的区域被认为是与肺部有关的区域,而在这个范围之外的区域则被排除,因 为它们被认为与肺部研究无关。本文采用HU值=-600作为阈值对CT图像进行过滤 生成二值化切片。
(3)归一化。在对其经行HU值进行阈值过滤后,我们对其缩放至[0,255]的范 围内,即归一化操作,如公式(3.1)所示:
其中,H(x,y)代表归一化之前的HU值,I(x, y)代表归一化之后的像素值。
(4)重采样。数据集中的CT影像来自不同医院的不同仪器,不同仪器和不同
的采集协议在采集过程中会导致不同的像素间距,在将数据输入卷积网络之前,我 们要通过重采样将其像素间距统一。
(5)裁剪。由于数据中包含的肺部CT图像尺寸较大,直接将其输入到网络中 会导致图像处理运算量过大,为了较少资源消耗,预先对图像裁剪至96*96后,将 其堆叠成 3 维图像数据,
3.4网络模型训练
本次实验在模型训练过程中的优化器采用 Adam 算法,其中影响分割精度和训 练时长的参数有如下几个:
1.学习率,合适的学习率可以正确指导反向传播使对模型参数的调整,加快模型收 敛并保证最优解。本文将初始学习率设置为 0.0015。
2.卷积核,在模型的训练过程种,网络模型的参数开销很大一部分取决于卷积核的 尺寸。为了减小网络训练的开销,本文参考之前的医学影像分割实验将卷积核设 置为 3*3。
3.Epochs,在模型训练过程中,神经网络中通过一个完整的数据集并通过反向传播 调整过一次参数,这个过程称为一个epocho我们一共对网络进行了 200个epochs 的训练,在每个epoch中完成一次前向传播和一次反向传播,并对网络模型的参 数进行一次更新。
4.Batch size,在一个Epoch内用于训练网络的数据样本数量,它的大小对模型的 收敛速度有很大影响,本实验中设置batch_size为16。
5.损失函数,损失函数用来计算与前向传播中得到的预测值和真实值的差异值,用 该值在反向传播中调整模型参数。本实验采用的损失函数为Dice Loss,其表达 式如(3.2)所示:
DiceLoss = 1 -
3.5实验设计与结果分析
本实验主要包括数据集的预处理、模型网络的改进以及对其进行训练和测试。 并且通过消融实验将改进后的算法和已有的算法对任务的实验结果进行对比评估。 数据集的预处理中主要操作是 LUNA16 数据集中的数据进行读取、归一化,生成输 入模型网络的肺结节掩膜标签图像,最后通过翻转、裁剪、平移的数据增强手段来 扩充数据样本数量。利用二值化后的CT图像、肺结节掩膜对改进后的模型进行训练、 通过将数据输入训练网络进行大量迭代,最终使得模型收敛,取得最优解完成训练。
本次实验中考虑到肺结节目标过小而与分割任务无关的其他组织过多,为了使 训练更倾向于目标挖掘,选用了可以一定程度上抑制这种不平衡数据的损失函数 dice
31
损失函数。具体的损失函数为Loss=1-Dice。在dice损失函数的求值过程中,包含对 预测结果和实际结果求交并集的操作,该操作可以视为一个将无关背景区域屏蔽掉 的掩码操作,具有解决图像不均衡问题的能力,尤为适合目标过小的肺结节分割。 在训练过程中,损失函数得到最小值时候的权重参数,即为模型参数的最优解。使 用完成训练后的模型对数据集进行测试,并完成消融实验。
肺结节提取的最终结果成为正确分割肺结节像素的依据,为了总结分割模型的 预测结果,本文采用基于混淆矩阵的精度评价指标。对真实的分类类别和模型的预 测值进行分类。对类别进行汇总,混淆矩阵如表3.2所示。 本次实验中对于模型分 割性能的评价指标采用Dice相似系数(Dice Similariy Coeffient,DSC)和 IOU[35](Intersection-Over-Union) 。表中正类代表肺结节,负类代表背景。
表 3.2 混淆矩阵
混淆矩阵 检测肺结节像素数 检测非肺结节像素数
实际肺结节像素数 TP FN
实际非肺结节像素数 FP TN
本次针对肺结节的分割任务是一个二元分类问题,本次实验中模型分割出来的 肺结节和肺结节的真实标签会存在着一定的偏差,我们使用IoU即分割出的肺结节 区域和肺结节真实标签区域这两个区域的交集,除以这两个区域的并集来衡量偏差 大小。以肺结节分割任务中,类别为肺结节为例,上述区域的交集为TP,并集为TP、 FP、 FN 之和,故 IoU 计算公式为(3.3)所示:
IoU=TP/(TP+FP+FN) (3.3)
通过重复计算肺结节和非肺结节这两个类别的IoU后,再求它们的平均值即可 得到MIoU。MIoU表示的含义是我们训练出来的分割模型对于各个类的分割结果和 真实标签的交集与并集的比值之和的平均值。
对于本次肺结节分割任务来说,MIoU的计算公式为(3.4)所示:
PA(Pixel Accuracy)指像素准确性,是图像分割任务中最常用最简单的评价指标, 在肺结节分割任务中就是肺结节正确分类的像素除以总像素,也就是肺结节正确分
32
类的百分比。PA利用混淆矩阵表达的公式如(3.5)所示:
Pixel accuracy=
TP + TN
TP + TN + FP + FN
(3.5)
另外本次实验用到的另一个度量标准为Dice,我们用它来衡量模型对肺结节的
预测结果以及真实标签的相似度, Dice 的含义是预测结果和真实标签的交集除以并
集。 Dice 利用混淆矩阵表达的公式如(3.6)所示:
2*TP
Dice =
FP+2*TP+ FN
(3.6)
3.5.1 结果对比与分析
为了验证本章提出的肺结节分割模型的有效性,本文将基础分割模型U-net、Vnet 和改进后的Avnet分割方法分别对LUNA16数据集中的同一患者的肺部病理图像进 行仿真实验,分割结果如图3.5所示,其中图3.5 (a)是来自Luna16数据集的原始
图像,3.5 (b)是真实标签图,3.5 (c)〜(e)分别是Vnet、AVnet的分割结果图。 虽然各个分割模型基本上都可以完成分割任务,但相较于3D U-net和Vnet,Avnet 在本章所采用的数据集上对于肺结节的分割更加精准。
(a)原始图像
(b)真实标签
33
c)U-net 分割效果
d)Vnet 分割结果
e)AVnet 分割结果
图 3.5 各模型分割结果
图3.6(a)给出了原始3DU-net、Vnet和AVnet这三种模型的Accuracy与epoch 的关系曲线图,图3.6(b)给出了原始3DU-net、Vnet和AVnet这三种模型的Loss与 epoch的关系曲线图,表3.3给出了 3DU-net、Vnet和AVnet的Dice结果。从图中 可以明显观察到,与其他模型相比,AVnet网络对于肺结节的分割精度比原始网络 Vnet 提高了 1.7%,比 3D U-net 提高了 3.2%。
将分割之后的肺结节数据分别应用到U-net、Vnet和AVnet网络进行训练和测试, 并使用Dice、MIoU、PA三个评价指标进行比较,结果如表3.4所示。
从实验数据中可以看出,A-Vnet网络具有更高的精确度,MIoU、PA、Dice三
34
种评价指标分别达到了 89.8%、 91.5%、 0.895 的结果。
图 3.6(a) 各模型 acc 与 epochs 关系图
图 3.6(b) 各模型 Loss 与 epochs 关系图
表 3.3 不同模型的 Dice 结果
模型 3D U-net Res-block Attention-block BN Dice
3D U-net X X 0.879
Vnet X 0.863
AVnet 0.895
35
表 3.4 不同模型的分割性能对比
模型 MIoU PA Dice
3D U-Net 86.5% 89.5% 0.879
VNet 87.3% 88.5% 0.863
AVnet 89.8% 91.5% 0.895
3.6本章小结
本章首先介绍了实验所采用的模型。实验所用的数据集为 Luna16 公开数据集, 该数据集中每位患者病例样本均包含由专业医师完成分割的真实标签。预处理工作 包含了图像数据裁剪,归一化处理以及缩放、旋转、平移等数据增强处理。
其次针对肺结节分割中由于肺结节目标过小、无关组织过多等原因造成的分割 精度较低问题,提出了一种基于 3D U-net 网络改进的新型三维网络并将其命名为 AVnet,将该网络模型应用至肺结节分割任务中。该网络中以对称的3D U-net为基础, 融入残差模块来提高对肺结节特征信息的提取,最后引入并且引入注意力机制来加 强对肺结节特征的利用以提高分割的精确度。最后对算法网络模型进行测试与训练, 并通过对比实验来验证该模型的性能。实验证明该算法在肺结节的分割任务上能够 取得良好的分割效果,对于不同形状不同尺寸大小的肺结节分割后形状清晰。
36
第四章 基于 L-VGG 网络模型的肺癌分类
本章提出的方法主要是对第三章的输出结果作为候选结节进行进一步的精分类, 将残差网络模块引入到原有的VGG-Net网络结构中,针对3D肺结节数据,使用3D 卷积[31]对肺结节特征信息进行提取,进一步加强对肺部CT影像中空间位置信息的利 用,加强网络中的远程依赖关系,进一步提升网络分类的准确性。
4.1基于L-VGG的分类网络
VGG16 网络模型不仅结构简单,并且具有强拟合性,但是对于医学影像数据 集这种小样本量数据集来说,其中包含的多达大量权重参数不仅需要巨大的存储空 间和大量的训练时间,还会使得反向传播参数调整变得极为困难;因此本文对 VGG16 网络模型的结构进行改进,不仅简化其架构使其能够对于肺结节有更好的 分类效果并在网络结构中引入了多模态特征融合思想,通过残差网络思想引入层融 合的技术进行多尺度特征融合并加入批量规范化层(Batch Normalization, BN), 使得网络可以学习到更多的特征信息并缓解梯度消失问题,本文将改进后的网络模 型成为L-VGG (Layer fusion VGG),其结构图如图4.1所示。
在L-VGG网络结构中,采用了 VGG网络的基础框架,使用了卷积层、池化 层来提取并选择特征,并通过全连接层进行分类,最后使用 softmax 函数对网络分 类的结果进行0到1之间的映射,但与VGG网络不同的是在L-VGG网络中我们 添加了多模态特征融合思想,将网络主框架中每一次卷积和池化操作后输出的的数 据都进行先融合后预测的早融合(Early fusion) Concat连接,即在特征输入至分类 器之前对其进行融合,进行不同特征的连接,再将其输入值至分类器内。这样的方 法使得训练预测器使用的特征图是经过融合后的具有丰富语义信息和底层信息的 特征图,可以有效提升模型的性能。
对于肺结节良恶性分类任务,为了得到更丰富的特征信息,对L-VGG网络中 每一个卷积层输出的特征图,都通过卷积操作改变成统一尺寸的特征图,并对其进 行拼接,使得特征图内同时包含细粒度特征信息和粗粒度特征信息,最后输入至全 连接层中进行预测。 []
conv
图 4.1 L-VGG 网络模型
在 L-VGG 网络模型中,主干网络 VGG 上的卷积核只用来提取特征而不改变特 征图的尺寸大小,而用于特征融合的旁枝上上的卷积的用途是改变各特征图的尺寸 方便后续特征融合中的concat操作。L-VGG网络的详细参数如下表4.1所示。
由于在第三章中,我们已经对肺结节做了分割,输入进L-VGG网络的是分割后 的肺结节图像,其尺寸为 96*96*16。在深度学习中,池化层已被证实对模型性能的 提升没有明显作用[36]并且过多的池化操作还会造成肺结节的特征信息损失,但更深 的卷积层才有较好的提取效果并能取得较高的分类精度。在综合考量后,本文在 L-VGG网络模型中以VGG网络模型为backbone,减少了池化层的数量,将网络结 构设置为每四次卷积后进行一次池化操作,保存了更多的特征信息并将其卷积和池 化的后的特征图进行特征融合,保证了特征信息损失较少的前提下提取到更高级抽 象的语义信息特征信息。
在对肺结节分类的任务中,由于良性肺结节和恶行肺结节的差异较小,正负样 本具有很高的相似性。因此拥有更多卷积数目的 VGG16 模型虽然可以提取到更多的 抽象特征信息,但底层的特征信息含有目标的位置信息能给分类效果带来正面影响。 故在 L-VGG 模型,由特征融合来补偿的底层特征信息,给对肺结节的精分类带来更 佳的效果。
38
表 4.1 L-VGG 网络的详细参数
Layer name Output-1(backbone) Output-2
特征图尺寸 特征图尺寸 用于改变尺寸的卷积
核参数
Input layer =96*96*16
Conv Block1 「96*96*32_
96*96*32 [96 * 96 * 128] Padding=1
Stride=16
Kernel size=18
48*48*32
Conv Block2 -48*48*64「 [48 * 48 * 256] Padding=1
48*48*64 Stride=8
Kernel size=10
24*24*64
Conv Block3 ~24*24*128_ [24* 24* 512] Padding=1
24*24*128 Stride=4
Kernel size=6
12*12*128
Conv Block4 j2*12*256「 [12 * 12 * 1024] Padding=1
12*12*256 Stride=2
Kernel size=4
6*6*256
4.2数据集
本次对于肺结节分类的数据集LUNA16数据集中对根据真实标签进行了裁剪后 标注了良恶性的样本;进行裁剪后的肺部CT图像,去除了与本次分类任务无关的组 织,仅仅包含本次分类任务的ROI:肺结节及部分附近区域;这一步骤极大的提高了 网络对于肺结节的特征信息的学习能力,提高了分类的准确性,也释放了计算资源, 加快了模型的收敛速度。
而本次分类任务的标签都来自至少一位专家标注, LUNA16 数据集中对于每个 肺结节也提供了详细的相关信息,为我们的研究提供了便利。 LUNA16 所包含的肺 结节信息如表4.2所示。
深度学习网络训练过程中需要大量的数据来训练模型参数,其用于训练网络的
39
数据集的大小直接关系到模型的性能。因为如果没有大量的数据的支持,较深的网 络很容易出现过拟合现象。在LUNA16数据集中,有551065张2D CT切片包含肺 结节,但只有1351张CT切片中包含的是标签为1的恶性结节,其余都为标签为0 的良性结节,因此用于网络训练的数据集及其不平衡,为了更好的训练深度卷积网 络缓解该二分类任务中数据集中类别的不平衡不均匀,本实验中仍在保持肺结节特 征不变的前提下将标签为1 的数据通过翻转、旋转、缩放、裁剪、移位等数据增强 操作扩大正类样本比例。
表 4.2 肺结节信息表
信息名称 说明
seriesuid 肺结节序列号
Diam 结节的直径
X loc 肺结节的X坐标
Y loc 肺结节的Y坐标
Z loc 肺结节的 Z 坐标
Class 肺结节的良恶性分类
4.3网络模型训练
本章分别对VGG网络和改进后的L-VGG网络模型进行训练,并且输入第三章 分割处理后的肺结节图像作为训练样本。对于这两种网络采用相同的训练参数进行 训练:
影响模型精度和训练时长的因素主要包括: 1.学习率,合适的学习率不仅使得模型收敛的速度加快,并增加最优解 的获取概率,本文经过多次对比,最终选取 0.001 作为本次的学习概率。
2.卷积核,在本文中,卷积核的大小设为3*3*3,以减少网络规模;
3.Fc层数,在VGG16模型中有三个全连接层,而医学影响数据集的样 本少、目标小的特点,使得过多的全连接层容易导致过拟合现象的出现,因 此本次实验中,去掉2个全连接层。
4.损失函数,在本次针对肺结节的分类训练是一个二分类问题,我们采 用交叉熵(cross entropy)作为损失函数,能更直观的反映模型性能。
40
在模型训练时,对于改进前后的两种模型网络都使用ReLU激活函数,并使用 统一的优化器Adam,并在相同的实验条件下进行训练。对比其结果可知,改进后的 L-VGG网络在单块GPU下训练后,loss值下降为变为0.089。
4.4实验设计与结果分析
4.4.1实验运行环境
本次实验的运行环境如表4.3所示。
表 4.3 系统开发环境配置表
设备 资源名称 配置信息
CPU Intel(R) Xeon(R) Gold 6271 CPU @
2.60GHz
硬件 GPU NVIDIA Tesla P100-16GB
内存 16 GB
硬盘 1TB 固态硬盘
操作系统 Windows10
软件 编程语言 Python3.7
开发集成环境 PyCharm 2020.3.3 x64
4.4.2评价指标
本章针对肺结节良恶性分类的任务是一个二分类任务,我们将实验样本分为正 类和负类,其中正类样本标签为1,代表恶性肺结节,负类样本标签为0,代表良性 肺结节。根据第三章的介绍,我们将TP视为对恶性肺结节样本正确分类的数量,FP 视为对恶性肺结节错误分类的样本量, TN 视为对良性肺结节分类正确的样本数量、 FN为对良性肺结节错误分类的个数。根据以上定义,本章采用准确率ACC、敏感性 SEN、ROC曲线下面积AUC作为此次分类模型的评价指标。
以下为评价指标的简单介绍:
1)准确率ACC:分类模型中常用的评价指标,该指标的含义是模型预测中预测 正确的对于预测总量的占比,其表达式为:
41
2)敏感性SEN:该指标可以衡量模型对于恶性结节的分类能力,敏感性SEN与
对恶性肺结节的分类能力成正比,其表达式为:
3)ROC 曲线下面积 AUC:ROC (Receiver Operating Characteristic)曲线是一个 综合性的评价指标,AUC的大小与分类模型的性能成正比。
4.4.3结果对比与分析
本次针对肺结节的分类任务中,选用不同的网络模型进行训练。首先,选用交 叉熵损失函数Lbce的下降作为多个模型分类性能对比的参考,以VGG16、VGG19的 作为基准,通过绘制Lbce与迭代次数epochs之间的关系图,可以看出L-VGG可以得 到更好的收敛效果,L-VGG网络的ACC、SEN和AUC(Area Under roc Curve)均高于 基准网络,故L-VGG网络对于肺结节的良恶性分类能够取得更好效果。图4.2为迭 代次数与损失函数之间的关系图,图 4.3 迭代次数与精确度之间的关系图。
为进一步直观反映各个模型的分类效果,分别绘制了他们的ROC图像,对于该 二分类任务来说,ROC曲线下的AUC值越高,则对于肺结节的良恶性分类效果越 好。图4.4为不同分类模型的ROC曲线。
分别用到VGG16、VGG19和本章的创新网络L-VGG网络中进行训练和测试,
43
并使用准确率ACC、敏感性SEN、ROC曲线下面积AUC作为评价指标对比各个分 类模型的性能,结果如表4.4所示。
表 4.4 不同模型的分类性能对比
模型 ACC SEN AUC
VGG-16 0.843 0.893 0.886
VGG-19 0.856 0.902 0.894
L-VGG 0.855 0.903 0.915
从实验数据中可以看出,L-VGG网络的分割性能优于其他两个网络,ACC、SEN、 AUC 三种评价指标分别达到了 0.855、 0.903、 0.915 的结果。
4.5本章总结
针对上一章分割出来的候选结节精检测问题,本章使用了改进后的 VGG16 网络 对候选结节良恶性进行分类。首先介绍了最经典的分类网络VGG16,对其基本原理 及其网络结构做出详细说明分析,并梳理肺结节分类任务中的难点,在此基础上, 针对 VGG16 网络存在的缺陷与不足,以该网络作为本文改进方法的基本框架,并详 细介绍改进后的L-VGG分类网络,最后设计实验与对比试验,并对实验结果进行对 比分析。其中改进后的L-VGG分类网络的AUC可达0.915,很好的证明了本文方法 的有效性。
44
第五章 基于 AVNet+L-VGG 算法的计算机辅助诊断教学系统
从肺部CT影像中进行有效的肺结节识别是对肺癌进行有效诊断的基础,也是医 学生在影像诊断学课堂上需要掌握的基础技能。医学上需要从不同状态下的机体的 医学影像特征,准确的对肺结节进行识别和分类,进而有效的指导肺癌的临床治疗。 然而医学CT影像存在样本数量过少,采集仪器参数不同、环境不同的特点a】,导致 了影像质量不高的结果,同时,教师少而学生多的传统课堂的特点导致在课堂上教 师无法对每一位学生进行精心指导。枯燥抽象的学习内容、教学手段落后都增加了 教学活动的开展的难度,使医学生难以掌握综合诊断思维和肺结节的精确诊断。
随着计算机行业的飞速发展,多媒体技术逐步走入我们的日常生活之中,我国 全面进入信息化新时代,教育行业也展开了教育信息化2.0 行动计划,计算机辅助的 教育系统大力推动了自动化智慧医学教学[38]。本论文面对医学生从肺结节诊断课堂 教学实际需求出发,改变传统教学观点和方法,本章设计并实现了一个基于 pyqt5 的计算机辅助肺癌诊断教学系统。该系统集成了本文所创新的肺结节分割算法和肺 结节良恶性判断算法,实现了从数据读取到输出诊断结果的一体化流程,为医学生 的肺癌诊断学习提供了准确参考,使学生能够快速的掌握医学影像知识,尽快形成 自己的完整知识体系[39]。
5.1需求分析
5.1.1功能性需求
本章设计实现的计算机辅助诊断教学系统主要针对于缺乏临床经验的医学生, 对于这样一个应用在教学领域上的CAD系统,不仅需要正确的读取肺部CT数据还 需要对其肺部CT进行可视化,让学生对其病理表征充分观察分析;此外系统的核心 功能是使用深度学习网络对肺癌检测,并输出其诊断结果[40]。总而言之,本文的系 统主要包括肺结节分割、良恶性分类以及评价指标等基本功能。
该系统主要功能是实现肺癌的检测,按照此逻辑,整个系统的使用流程如下:
1.导入肺部CT图像,系统将读取图像的数据信息,并在系统界面中对3D的 肺部 CT 进行可视化。
2.点击肺结节分割按钮,系统将自动对其进行特征提取,并调用本文所提出的
45
肺结节分割算法,加载已经训练好的最优模型,将肺结节从输入数据中分割出来。
3.在完成肺结节分割之后,点击良恶性判断按钮,将上一步中分割出来的肺结 节作为候选结节输入到本文所提出的分类网络中,并输出对其良恶性的判断。
5.1.2非功能性需求
本章所设计系统的目标人群为在校学习的医学生,这类年轻群体十分注重用户 体验[40],因此本系统的设计实现过程中不仅要重视肺癌系统的准确率还要能够提供 友好的系统交互,提高用户对系统的满意度。
1.系统易用性和易维护性;该系统面对的使用人员大多为医学专业学生,他们 缺乏计算机使用经验,故需要系统提供良好的用户接口和易操作的交互界面。为了 保障系统的生命周期,在设计时尽量保证各模块的独立性。
2.系统的响应速度;为了保证医学生的学习效率,在系统设计时尽可能缩减模 型的测试时间,做到用户指令的及时反馈。
3.系统可移植性;系统开发应该遵守软硬件行业标准,保证代码的易读性和可 操作性,保证系统对不同运行环境的适应能力。
5.2开发平台
本系统开发中所用的操作系统及基本运行环境情况如表5.1 所示。
表 5.1 系统开发环境配置表
设备 资源名称 配置信息
CPU Intel(R) Xeon(R) Gold 6271 CPU @
2.60GHz
硬件 GPU NVIDIA Tesla P100-16GB
内存 16 GB
硬盘 1TB 固态硬盘
操作系统 Windows10
软件 编程语言 Python3.7
开发集成环境 PyCharm 2020.3.3 x64
46
5.3系统总体设计
5.4系统实现
系统的主界面分为原始图片显示界面和分割图片显示界面,当用户选择模型并
47
输入图像后,可实现对该输入图像的分割、分类。如图 5.3、 5..4所示。
图 5.3 系统主界面截图
图 5.4 系统运行界面截图
48
5.5本章小结
本章从辅助诊断教学系统的实际需求出发,实现了系统的主要功能,并完成系 统各个界面的搭建,并对其进行了展示介绍。
49
50
第六章 总结与展望
6.1总结
推动针对 CT 图像的肺部结节的检测研究对于支持肺癌的诊断和治疗具有重要 意义。在教育领域上,在校学习的医学生如果想了解肺癌的诊断特点,学习为患者 提供有效的临床治疗,就需要使用人工智能等信息技术。本文的目的是创建一个高 度准确的肺癌诊断系统,作为学生的实际参考,提高他们的独立学习和思考能力, 并减少他们的认知负担。
常用于图像分割的U-net网络,具有典型的对称结构。由于其出色的分割效果, 引起了医学影像分割领域的广泛关注,研究人员不断将其他新的网络设计理念融入 到U-net网络中,创新出了用于各种分割任务和不同背景下的医学分割网络,并使新 网络准确性和性能都得到了有效改善。在本文的研究中,使用AVnet、Vnet和3D U-Net 三种模型,在LIDC-IDRIs数据集的子数据集LUNA16上设计并实现了基于3D U-Net 的肺结节分割算法。本文在肺结节分割上的研究工作总结如下:
1.本文通过阅读大量文献,深入了解医学影像研究的重要性和背景,以及医学影像 在教育行业所面临德的困境,针对教育领域的应用需求,介绍当前常用的深度学 习算法,以及国内外的相关技术并介绍了它们目前的研究状况。
2.本文选择了最经典的医学图像分割网络一一U-Net作为基本架构,并根据检测任 务目标的特点对其进行改进。对U-net做出改进后构成的创新网络AVnet不仅在 原始网络的基础上引入了残差结构来缓解梯度消失问题,为了能够更好地提取和 利用对分割有积极作用的特征信息还额外加入了注意力机制。
3.本文研究选择LUNA16数据集上进行实验,并通过对AVnet、Vnet和3D U-net 三种算法对于肺结节的分割效果对比来验证改进后的算法的有效性,并根据实验 得出结论:AVnet对于肺结节有较好的分割效果。
对于分割出来的肺结节,我们将其视为候选结节,并对其进行进一步的精分类, 以确定其良恶性,为医学生提供参考。针对肺结节的分类网络,我们选用以传统的 VGG16网络作为基础模型,再考虑到针对肺结节的分类任务中的肺结节的特点后, 在网络中加入残差结构和批量规范化层,并减少网络的池化层数和全连接层数,创 新出了对于肺结节分类有更好效果的L-VGG网络。使用改进的L-VGG网络和原始
51
VGG16 模型进行综合实验,最终完成了基于 L-VGG 网络的肺结节分类算法的研究 与实现。本文在肺结节分类上的研究工作总结如下:
1.本文选择了较为经典的 VGG16 网络作为原始网络,并总结了其优缺点。针对数 据集自身存在的有效特征信息较少,标签获取困难的特点,在原始模型 VGG16 上引入残差模块来减少梯度消失保留空间特征信息,并较少网络层数来预防过拟 合。
2.将本研究中分割出来的候选肺结节作为改进后的L-VGG分类算法的输入,对其 进行训练测试来验证算法的效率。将训练得到最优参数的模型与原始模型 VGG 的分类效果进行比较,进一步验证和分析实验结果,以此证明本文提出的方法针 对此次肺结节分割任务可以取得更好效果。
6.2展望
本论文虽然对肺部 CT 图像上的肺结节的分割算法和肺结节良恶性分类网络进 行了改进并对其做出了详细的说明与介绍。但仍然存在着不足和可供改进之处,在 今后的科研工作中,还需继续探究CT图像相关算法中的以下问题:
1.本文中所采用的数据集LUNA16中,图像格式为MHD和RAW,但医学图 像格式种类繁多,除次之外还有许多不同的格式,例如常用的DICOM, NIFTI,在 后续的研究中,通过对不同类型的数据集分别进行预处理并将其作为样本扩充训练 集,则可以进一步提高算法的有效性和鲁棒性。
2.目前针对医学影像的分割或者分类任务中,数据集是实验的基石,但由于医 学数据集的特殊性质,导致其样本量少且难以获得标签。目前所使用的公开数据集 缺乏最新、最真实的数据样本,导致模型学习到的特征有限,也会使算法实用性的 下降,难以在最新的肺部CT影像数据样本上取得良好的效果。
3.本次实验中分割与分类的对象仅仅针对肺部CT数据。为了推动教育领域上 医学影像学的发展,将深度卷积神经网络应用部署到不同类型的医学图像分析检测 上,帮助到更多不同科室的医学生,我们应该将本文的改进网络应用于其他医学疾 病的检测,并针对不同的目标任务不断优化网络。
4.本文中针对肺结节的分割网络的输出是2D的肺结节切片,丢失了许多肺结 节的三维空间信息,为了进一步提高后续分类网络的效率和精确度,后续可以对候 选结节的二维切片进行三维重建。
52
目前,深度学习算法在医学分割领域的应用还十分具有局限性。尽管科研人员 已经开始借助深度学习来缓解医学影像的定量分析中所面临的难题和困境,但由于 CT影像是从不同机构和CT设备上采集到的种类不同的肺部CT影像,往往具有不 同的特征。因此将这些种类不同的肺部CT样本作为深度学习算法的数据集时,往往 需要依赖于一些关键的步骤,例如归一化。并且,想要一步步训练得到具有最佳参 数的深度学习网络模型,往往需要一个庞大的数据集,但目前应用于医学影像上的 深度学习框架往往采用有监督的方式,并且医学影像的标签往往需要多个经验丰富 的临床医生手动标记。前期准备工作中庞大繁琐的工作量不仅拖慢了实验进度也加 大了实验难度。为了促进医学影像专业的前进与发展,作为科研人员的我们迫切的 需要开发出一款具有高度鲁棒性,对标记数据需量少的具有非监督、半监督学习能 力的深度学习模型。
随着技术的发展,深度学习模型对于医学影像的分割可靠性更高,达到了真正 的临床应用水平,有效地支持了医学生的学习。
53
54
参考文献
[1]吴恩惠.医学影像学[M].北京:人民卫生出版社,19995.
[2]鲍虹,倪肖卫,周自明等.基于读片技能的中医院校交医学影像学教学模式改革 与实践J].中国中医药现代远程教育,2019,17(5):135-137.
[3]郑荣寿,孙可欣,张思维,等.2015 年中国恶性肿瘤泥流行情况分析[]].中华肿瘤 杂志,2019,41(1): 19-28.
[4]何克抗.21世纪以来的新兴信息技术对教育深化改革的重大影响J].电化教育研究, 2019,40(03): 5-12.
⑸何克抗.关于《中小学教师教育技术能力标准(试行)》J].中小学信息技术教 育,2005(06):17-20.
[6]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[7]Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, Germany, October
5-9, 2015, Proceedings, PartIII 18. SpringerInternational Publishing, 2015: 234-241.
[8]Milletari F, Ahmadi S A, Kroll C, et al. Hough-CNN: Deep learning for segmentation of deep brain regions in MRI and ultrasound[J]. Computer Vision and Image Understanding, 2017, 164: 92-102.
[9]Kleesiek J, Urban G, Hubert A, et al. Deep MRI brain extraction: A 3D convolutional neural network for skull stripping[J]. NeuroImage, 2016, 129: 460-469.
[10]Gu Y, Lu X, Yang L, et al. Automatic lung nodule detection using a 3D deep convolutional neural network combined with a multi-scale prediction strategy in chest CTs[J]. Computers in biology and medicine, 2018, 103: 220-231.
[11]Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]//2016 fourth international conference on 3D vision (3DV). Ieee, 2016: 565-571.
55
[12]Froz B R, de Carvalho Filho A O, Silva A C, et al. Lung nodule classification using artificial crawlers, directional texture and support vector machine[J]. Expert Systems with Applications, 2017, 69: 176-188.
[13]de Sousa Costa R W, da Silva G L F, de Carvalho Filho A O, et al. Classification of malignant and benign lung nodules using taxonomic diversity index and phylogenetic distance[J]. Medical & biological engineering & computing, 2018, 56: 2125-2136.
[ 1 4] Kumar D, Wong A, Clausi D A. Lung nodule classification using deep features in CT images[C]//2015 12th conference on computer and robot vision. IEEE, 2015: 133-138.
[15]Xie Y, Xia Y, Zhang J, et al. Transferable multi-model ensemble for benign-malignant lung nodule classification on chest CT[C]//Medical Image Computing and Computer Assisted Intervention- MICCAI 2017: 20th International Conference, Quebec City, QC, Canada, September 11-13, 2017, Proceedings, Part III 20. Springer International Publishing, 2017: 656-664.
[16]Dey R, Lu Z, Hong Y. Diagnostic classification of lung nodules using 3D neural networks[C]//2018 IEEE 15th international symposium on biomedical imaging (ISBI 2018). IEEE, 2018: 774-778.
[17]Shen S, Han S X, Aberle D R, et al. An interpretable deep hierarchical semantic convolutional neural network for lung nodule malignancy classification[J]. Expert systems with applications, 2019, 128: 84-95.
[18]袁文秋,许爱莉,符建明•良恶性肺结节的CT薄层影像学特征及临床鉴别价值分析 [J].影像研究与医学应用,2022,6(23):72-74.
[19]Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.
[20]张永鹏.基于Attention-VNet的高光谱图像分类算法的研究[D].北方民族大 学,2021.DOI:10.27754/d.cnki.gbfmz.2021.000074.
[21]Mnih V, Heess N, Graves A. Recurrent models of visual attention[J]. Advances in neural information processing systems, 2014, 27.
[22]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
56
[23]Zhao B, Wu X, Feng J, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245-1256.
[24]杜涛利.基于改进U-Net的肺部肿瘤图像分割方法研究[D].宁夏大 学,2021 .DOI: 10.27257/d.cnki.gnxhc.2021.000616.
[25]戴振晖,简婉薇,朱琳,张白霖,靳怀志,杨耕,谭翔,王学涛.基于3D U-net结合
Transformer的肝脏及肝肿瘤自动分割J].中国医疗设备,2023,38(01):42-47.
[26]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[27]曹玲.基于褶皱模式和3D Res-Unet的大脑磁共振图像配准研究[D].湘潭大 学,2021 .DOI: 10.27426/d.cnki.gxtdu.2021.001660.
[28]王楠,王森妹,蔡静.基于改进U-net网络的2.5D肺实质分割J].现代信息科 技,2020,4(09):85-88.D0I:10.19850/j.cnki.2096-4706.2020.09.025.
[29]魏 萌 . 基 于 深 度 学 习 的 肺 结 节 分 割 算 法 研 究 [D]. 北 方 民 族 大 学,2020.D0I:10.27754/d.cnki.gbfmz.2020.000141.
[30]舒甜督. 医 学 CT 图 像 的 增强与 分 类 算 法 研 究 [D]. 长春工业大 学,2022.D0I:10.27805/d.cnki.gccgy.2022.000024.
[31]魏佳宾.基于深度学习的肺部CT图像处理分析及工程实现[D].北京邮电大 学,2020.D0I:10.26969/d.cnki.gbydu.2020.001470.
[32]舒甜督,刘芳,蔡茂.基于卷积神经网络的肺部CT图像分类算法研究J].电子设 计工程, 2022, 30(21):6.
[33]岳晴,尹健宇,王生生.基于改进CNN的低剂量CT图像肺结节自动检测J].计算机 科学,2022,49(S1):54-59.
[34]赵莹莹.基于多尺度注意力机制的三维卷积神经网络的肺结节检测算法[D].山东 师范大学,2022.D0I:10.27280/d.cnki.gsdsu.2022.001235.
[35]赵呈陆,方志军,高永彬,王海玲,卫子然,蔡清萍.基于改进型V-net卷积神经网络的 胃壁分割方法[J].中国医学物理学杂志,2021,38(10):1243-1250.
[36]Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for simplicity: The all convolutional net[J]. arXiv preprint arXiv:1412.6806, 2014.
[37]刘彩霞.计算机辅助肺癌CT诊断教学关键技术研究[D].南京师范大 学,2021 .DOI: 10.27245/d.cnki.gnj su.2021.000005.
57
[38]黄荣怀,王欢欢,张慕华,等.面向智能时代的教育社会实验研究[J].电化教育研 究, 2020,41(10): 5-14.
[39]邹月芬,洪汛宁,周小兵.PACS系统在医学影像象教学中的应用[J].现代医用影像 学,2009,18(02): 124-126.
[40]张鹏,徐欣楠,王洪伟,冯元力,冯浩哲,张建伟,闫守琨,侯宇轩,宋怡文,李佳翔,刘新国. 基于深度学习的计算机辅助肺癌诊断方法[J].计算机辅助设计与图形学学 报,2018,30(01):90-99.
[41]王佳丽.教学PACS系统在医学影像诊断学教学中的应用[J].影像技术,2018, 30(04): 53-54.