第一章 绪论 1
1.1论文研究背景及意义 1
1.2国内外研究现状 2
1.3研究内容 6
第二章 相关基础理论 7
2.1机器学习 7
2.2数据遗忘技术 9
2.3成员推理攻击技术 10
2.4后门攻击技术 11
2.5本章小结 13
第三章 面向深度学习模型的数据遗忘 15
3.1引言 15
3.2遗忘问题原理 16
3.3参照模型设计 18
3.4评估方法 19
3.5实验设计 21
3.6实验结果 23
3.7本章小结 31
第四章 面向医学影像的数据遗忘 33
4.1引言 33
4.2医学数据遗忘 33
4.3实验结果 34
4.4本章小结 42
第五章 总结与展望 43
5.1总结 43
5.2展望 44
参考文献 45
第一章 绪论
1.1论文研究背景及意义
数据被广泛认为是新时代的石油,代表着新的竞争力。在当今信息爆炸的时代, 庞大的数据信息库涵盖了社会生活的各个方面。银行账单信息、个人照片数据、社交 网站的点击记录,甚至是病人的患病历史等都可以成为后台的用户数据,在经过深度 聚合后形成统计数据。这庞大的数据量为机器学习模型提供了训练样本,使得机器学 习模型更加智能和便利,从而逐渐渗透进包括医疗在内的各个领域。目前,深度学习 模型已经广泛应用于智能医院、生物医学、图像分析等方面,帮助医院提供给患者更 便捷的服务,同时减轻医疗人力成本的负担。其中,神经网络病变检测模型常用于辅 助医生通过患者的信息判断其是否患病。为了获得更精确的结果,性能更高的医疗模 型层出不穷,这同时要求更大数据量的医疗数据作为模型的训练基础。这些医疗数据 包括病例信息、影像数据和基因数据等,往往包含患者的个人身体状况、疾病诊断和 治疗记录等敏感信息。
然而,目前投入使用医学图像分析的深度学习模型仍存在着安全漏洞,一方面, 攻击者根据机器学习系统的预测结果就能反推出用户个人敏感数据;另一方面,机器 学习方法存在着被攻击者恶意干扰、操控的安全风险。这些漏洞和攻击手段可能造成 数据泄露的风险。为了解决这些问题,一些隐私计算的方法近年陆续诞生,希望在不 泄露用户数据的前提下,提供较好的机器学习方法。典型的方法包括联邦学习[1][2]、差 分隐私等。然而,最新研究工作[3]表明,联邦学习等方法仍然存在安全威胁,恶意攻击 者能够在若干次迭代后近乎完全恢复出本地数据。诸如成员推理攻击等技术也能判断 出某些数据是否被用于模型训练过程,带来新的数据泄露问题。
机器学习数据泄露问题的存在,导致对于曾经投入模型训练使用的敏感数据,收
回其在模型提供方的使用权的需求日渐增加。为了满足此类需求,模型提供方需要从
模型中彻底消除对这部分用敏感信息的记忆,这一过程被称为“机器遗忘”(也称数据
遗忘)。事实上,国内外已经有大量关于数据遗忘的法律法规,明确提出需要允许用户
取消数据授权,并遗忘数据带来的影响。例如,《欧盟数据保护通用条例》[4]就对“被
遗忘权”做出了明确规定:每个数据主体皆能处理不符合规范的资料,尤其是针对资
料本身不完整或不正确的资料,有更正、消除和阻绝的权利。中国个人信息保护法[5]:
1
第 16 条 基于个人同意而进行的个人信息处理活动,个人有权撤回其同意。主流大公司 也有关于数据遗忘的规定,例如苹果公司于iosl4版本更新中,App跟踪透明度功能将 会要求 app 必须先获得用户的许可,才能在其他公司的 app 或网站中跟踪用户数据。
实现数据遗忘要求服务商不仅需要从数据库中删除用户数据,还需要彻底消除这 些数据对模型的影响。一种直观的方法是从训练样本中删除相关数据,然后重新训练 模型,以完全消除这部分数据的影响。尽管重新训练模型是一种有效的方法,但对于 大规模的深度学习模型和海量的数据集,重新训练将变得非常耗时,且需要大量的计 算资源,这使得重新训练方法在实际应用中变得异常困难。目前数据遗忘的主要方法 存在着会消耗较大的时间空间成本或者难以应用在神经网络框架中的缺陷。
本文提出一种轻量级的数据遗忘方法,可以用于解决医疗场景下的隐私数据遗忘 问题。重新训练虽然是一个耗时的方法,但在这种方法下,遗忘之后无法推断出需遗 忘患者数据的相关信息,并且对模型本身的性能做到了影响最小化。基于此,本文考 虑以重新训练后的模型为参照,微调目标模型,做简单的校正,对于其权重加上一个 微小扰动,使得变化后的模型不存在需遗忘数据带来的影响。然而在实际情况中,以 重新训练的模型作为参照,仍会造成大量的时间成本。因此本文对于参照模型的选取, 以重新训练的模型为标准,尽量与其相似即可。本文的贡献如下:
(1) 提出一种新的通用机器学习方法,并应用在医疗模型,实现了医学场景下的 数据遗忘。
(2) 本文的方法从已有模型出发迭代到模型完全删除部分数据终止,彻底消除了 需遗忘数据对模型的贡献。
(3) 评估本文的方法在四个公开图像数据集以及四个医学图像数据集上的性能, 与基线进行比较。精度损失不超过 10%,时间也远低于基线。
1.2国内外研究现状
机器遗忘的具体方法可以分为模型不可知方法、模型固有方法和数据驱动方法。
模型不可知方法。模型不可知的机器遗忘方法在多数情况下可以适用于不同模型 的遗忘过程,包括经过认证的移除方法,统计查询方法、减量学习方法和知识自适应 方法。
属于认证移除方法的遗忘算法是遵循机器遗忘原始近似定义的算法。Guo等人[6]专 注于线性模型和凸损失计算的理论保证。Golatkar等人[7]为基于SGD的学习算法,引入
2
了一个可计算的上界,核心思想是通过扰动(噪声)来掩盖基于梯度的更新所产生的残留。 这种扰动可以用影响函数[8]来近似,影响函数是通过对训练数据的 Hessian 和被遗忘数 据的梯度进行反演来计算的[9]。然而在这种计算中,模型参数的误差可能非常大,以至 于添加的噪声无法掩盖它。因此,如果提供的理论上界超过一定的阈值,遗忘算法将 采用从头开始的重新训练方法。根据这一思路,Neel等人[1°]提供了进一步的扩展,即 正则化扰动梯度下降和分布式扰动梯度下降,以支持弱凸损失计算,并为不可区分性、 准确性和遗忘时间提供理论保证。
统计查询学习是机器学习的一种形式,通过查询训练数据而不是其本身来训练模型。 在这种形式下,通过重新计算剩余数据的统计数据,可以有效地忘记数据样本[11]。统 计查询学习假设大多数学习算法可以表示为一些高效可计算转换的总和,称为统计查 询[12]。这些统计查询基本上是对真值的请求,以估计所有训练数据的统计函数。 Cao[13] 等人表明,统计查询公式可以推广至许多机器学习算法,如卡方检验、朴素贝叶斯和 线性回归。例如,在朴素贝叶斯中,这些统计查询是指标函数,当输出是目标标签时 返回 1,否则返回 0。在遗忘过程中,这些查询只需在剩余数据上重新计算。此外,统 计查询学习还支持自适应统计查询,这些查询是基于学习模型的先验状态计算的,包 括k-means方法、SVM和梯度下降方法。虽然这种遗忘更新不能使得模型收敛,但由 于模型是从几乎收敛的状态开始的,所以只需要几次学习迭代即可以完成遗忘。此外, 如果将旧的求和结果缓存在动态编程数据结构中,那么遗忘速度可能会更高。然而这 种方法的局限性在于它不适用于深度神经网络等复杂模型。在复杂的模型中,统计查 询的数量可能会呈指数级增长[14],从而降低了遗忘和再学习的效率。
减量学习算法最初设计用于去除冗余样本,并减少支持向量机(SVM)
[15][16][17][18][19]和线性分类模型上的训练负载。 Ginart 等人[20]提出一种针对基于量化和数 据分割的k-means聚类方法的减量学习。量化的思想是确保数据的微小变化不会改变模 型,有助于避免不必要的遗忘,从而保证准确度不会出现灾难性的下降。数据分区的 思想是将数据对模型参数的影响限制在几个特定的数据分区内。这一过程有助于查询 遗忘对一些数据特征的影响。然而这种方法只有在数据集非常庞大的情况下才适用。
知识自适应方法有选择地去除需遗忘的数据样本[21]。在这种方法中,需要将两个 神经网络分别训练为称职教师和不称职教师,将一个神经网络训练为学生。称职的教 师在完整的数据集上接受训练,而不称职的教师则是被随机初始化的。学生是用称职 教师的模型参数初始化的。学生被训练去模仿称职的老师和不称职的老师,通过一个
3
损失函数来评估学生和两位老师之间的KL散度值。在遗忘时,称职的教师处理保留的 数据,而不称职的教师处理遗忘的数据。
模型固有方法。模型固有方法是为特定类型的模型设计的遗忘方法。包括基于线 性模型的遗忘、基于树的遗忘、基于深度神经网络模型的遗忘以及联邦学习场景下的 遗忘。
Izzo 等人[22]提出了一种基于影响函数的线性逻辑模型近似遗忘方法。他们用项目 残差更新(project residual update)来近似Hessian矩阵计算,该方法结合了梯度方法和合 成数据,适用于小样本遗忘。 Li 等人[23]制定了一个在线环境的特殊情况,其中数据只 能在有限的时间内访问,因此最初没有完整的训练过程。系统有一个恒定的内存来存 储历史数据,并且它必须在有限的时间内做出预测。这个方法中需要遗忘的数据可以 通过在内存中上使用后悔方案从模型中实时遗忘,但仅适用于普通线性回归模型。
树模型是一种递归划分特征空间的分类技术,其中划分阈值由某些标准确定,例 如信息增益。有一类基于树的模型,称为极端随机树[24],由决策树集合构建。极端随 机树有效的主要原因是在这种模型中分割特征和截止阈值的候选集合是随机生成的。 通过减少基尼系数来选择最佳候选,避免了对数的繁重计算。Schelter等人[25]通过测量 分割决策的鲁棒性,提出了一种极端随机树的遗忘方案。如果删除k数据项不会反转该 分割,那么分割决策是鲁棒的。(k可以是有界的,并且它通常很小,一次只有万分之 一的用户想要遗忘他们的数据)。学习算法后来被重新设计,使得大多数分割,特别是 高级分割,都是鲁棒的。对于非鲁棒分割,所有子树变体都是从所有分割候选中生长 出来的,并一直保持到删除请求修改该分割为止。当这种情况发生时,分割被转换为 基尼系数更高的变体。因此,遗忘过程包括重新计算基尼系数,并在必要时更新分割。 这种方法的一个局限性是,如果要遗忘的集合太大,可能会有许多非鲁棒的分割。这 将导致子树变体的高存储成本。然而,它确实在遗忘和再训练之间提供了一个参数化 的选择。如果有很多遗忘请求,可以选择再训练或者限制一次处理的最大遗忘请求数。
深度神经网络是从数据中自动学习特征的高级模型。因此,很难精确确定每个数 据项的确切模型更新[26][27][28][29]不过,深度神经网络由多层组成。对于具有凸激活功能 的层,可以应用现有的遗忘方法,如经认证的去除机制[30][31][32]。对于非凸层, Golatkar等人提出了一种缓存方法,该方法在先验已知为永久的数据上训练模型。然后 使用一些凸优化对用户数据进行模型微调。
DNN 的复杂遗忘方法主要依赖于影响函数[33]。不过深度神经网络中的影响函数在
4
面对大量需遗忘需求时并不稳定[34][35][36]。在这种方法中,泰勒展开式用于近似数据项 对黑盒模型参数的影响[37]。DeltaGrad[38]存储每个数据项的历史更新,以及基于Fisher 的遗忘[39]。更准确地说,在将要遗忘的数据从数据库中删除后,基于 Fisher 的遗忘使 用牛顿方法处理剩余的训练数据,该方法使用二阶梯度。为了减轻潜在的信息泄漏, 将噪声注入模型的参数[40]。由于基于 Fisher 的方法旨在在没有删除数据的情况下近似 模型,因此不能保证删除数据的所有影响都已消除。尽管注入噪声可以帮助减少信息 泄漏,但模型的性能可能会受到噪声的影响。 Golatkar 等人指出,对于像深度神经网络 这样的复杂模型,经过认证的去除机制中的 Hessian 计算过于昂贵。因此,他们通过 Levenberg-Marquardt 半正定近似替换 Hessian 近似,结果证明其与 Fisher 信息矩阵一致 [41]。尽管它不能提供具体的理论保证,但基于 Fisher 的遗忘可能会对数据遗忘的理论 方法提供积极引导。
关于联邦遗忘的研究倾向于假设要删除的数据完全属于一个客户端[42][43][44]。根据 这一假设,特定客户对全球模型训练的历史贡献可以很容易地记录和删除。然而,删 除历史参数更新可能仍然会损坏全局模型,但有许多策略可以克服此问题。例如, Liu 等人[45]提出了校准训练,以尽可能分离客户的个人贡献。这种机制在深度神经网络中 不太适用,但在浅层架构中适用。此外,由于在联邦服务器上存储历史信息的成本, 这种方法在遗忘效果和精度之间需要权衡。 Wu 等人[46]提出了一种知识蒸馏策略,使用 一个全局模型在剩余数据上训练遗忘后的模型。然而,由于服务器无法访问客户端数 据,一些未标记的(合成的)数据需要对整个数据集的分布进行采样,并且需要在客户端 和服务器之间进行额外的信息交换。因此,整个过程代价相当高昂。在另一个领域, Liu 等人提出了一种智能再训练方法,用于无需通信的联邦遗忘。该方法使用 L-BFGS 算法[47][48]有效求解具有历史参数更新的Hessian近似,用于全局模型的再训练。但该方 法仅适用于小型模型,并且它涉及到存储旧模型 (包括历史梯度和参数),可能带来了 一些隐私安全威胁。
数据驱动方法。数据驱动的遗忘方法是数据为核心,包括数据分区方法、数据增 强方法和基于数据影响的方法。
数据分区(高效重新训练)使用数据分区机制来加快再训练过程。或者对模型进 行了部分重新训练,在精度上有一定的限制。 Bourtule 等人提出了众所周知的 SISA 框 架,该框架将数据划分为数据分块和数据切片。每个数据分块都有一个模型,最终输 出是这些数据分块上多个模型的聚合。对于数据分块的每个数据切片,在训练期间存
5
储模型检查点,以便可以从中间状态重新训练新模型。
数据增强是指丰富或添加更多数据以支持模型训练的过程。这样的机制也可以用 来支持机器遗忘。Huang等人提出了误差最小化噪声的思想,该思想使模型误以为从给 定的一组数据中没有什么可学习的(即损失不会改变)。但是,它只能用于保护特定的数 据项。 Fawkes 也研究了类似的设置,其中使用有针对性的对抗性攻击来确保模型不会 从目标数据项中学到任何东西。相反, Tarun 等人[49]提出了误差最大化噪声来损害目标 数据类(待遗忘)的模型。然而,这种策略不适用于特定的数据项,因为它更容易干扰模 型对整个类的预测,而不是对该类的特定数据项的预测。
基于数据影响的方法。这类学习方法研究训练数据的变化如何影响模型的参数 [50][51],其中影响是使用影响函数计算的[52][53]。然而,影响函数取决于学习算法的当前 状态。为了缓解这个问题,一些研究方法存储了模型训练每一步产生的中间量(例如, 模型参数或梯度)的训练历史[54][55]。然后,遗忘过程变成了减去这些历史更新的过程之 一。然而,由于输入训练数据的顺序对学习模型很重要,模型的准确性可能会由于灾 难性的遗忘而显著降低[56]。另外,影响本身并不能验证待遗忘的数据是否仍包含在遗 忘后模型中[57][58]。
1.3研究内容
本论文主要研究机器学习的隐私和安全问题,首先分析现有算法的脆弱性及当前 遗忘技术的局限性,其次研究了针对神经网络的数据遗忘问题,再其次探讨了本文的 方法在医学领域的应用,最后对全文总结。本论文由以下五个章节构成:
第一章:绪论。主要介绍了机器学习隐私和安全问题的研究背景和意义,数据遗 忘的现有研究、对本论文的研究内容、结构安排进行了归纳概述。
第二章:相关基础理论。主要介绍了本论文研究内容所涉及的背景知识,简述机 器学习背景、机器遗忘技术、成员推理攻击技术以及后门攻击技术。
第三章:面向深度学习模型下的数据遗忘。从数据遗忘理论展开研究,定义相关 问题,设计数据遗忘训练方案,并通过实验分析方案的准确性和高效性。
第四章:面向医学影像的数据遗忘。研究数据遗忘模型的医学应用,在现有方案 的研究基础上,将其应用在医学数据上,分析验证了该方案的有效性。
第五章:总结与展望。主要对本文的研究内容和技术进行总结,概述本论文中主 要内容与创新点,并分析方案仍可能存在的待改进之处,并展望后续研究工作。
6
第二章 相关基础理论
本章节对本领域内的主要概念、技术、方法做了简要介绍。首先,描述了深度学 习技术。其次介绍了数据遗忘技术的原理以及现有方法。然后介绍了成员推理攻击技 术的现有方法。最后,介绍了后门攻击技术的现有方法。
2.1机器学习
机器学习是一种人工智能领域的技术,它使用算法和统计模型,让计算机系统能 够通过分析和理解数据来自动学习和改进。简单地说,机器学习是一种将计算机训练 成能够自主识别和处理数据的技术。机器学习的核心思想是让计算机能够自主学习, 而不需要人为地编写具体的指令或规则。这样,计算机就能够根据数据的变化而自动 调整算法和模型,不断地优化性能和结果。机器学习应用广泛,包括自然语言处理、 语音识别、推荐系统、计算机视觉、金融风险评估、医学诊断等领域。通过机器学习 技术,人们可以更快、更准确地进行数据分析和处理,更好地理解和应用现实世界中 的数据。
有监督学习和无监督学习是机器学习的两类技术。有监督学习在已知输入的情况 下训练模型,让模型学习到先验知识后能够预测输出;无监督学习则是在输入数据中 自发性学习到内部的模式和结构。
深度学习的核心是神经网络,其基本组成单位是神经元。神经元接受输入信号,进 行加权和非线性变换,输出结果。通过多层次的神经元组合,可以得到更复杂的模型。 深度学习中的参数优化通常使用反向传播算法。反向传播算法通过计算损失函数对模 型参数的导数,然后根据梯度下降法对模型参数进行更新,以最小化损失函数。反向 传播算法可以有效地处理深层次的神经网络,并且可以实现端到端的模型训练。在隐 藏层中,常常用到激活函数来增加模型的表达能力,激活函数将神经元的计算变为非 线性变换。常用的激活函数包括Sigmoid函数、Tanh函数、ReLU函数等。其中常用的 Dropout 技术通过随机地阻挡一些神经元的传播,在训练中增加模型的鲁棒性和泛化能 力。 Dropout 技术可以有效地避免过拟合现象。本文主要讨论使用在图像分类识别的卷 积神经网络。卷积神经网络主要由卷积层、池化层和全连接层组成。卷积层通过卷积
7
核对图像进行卷积运算,达到在图像、文本、语音等数据上提取特征的作用,得到特 定的特征图;池化层则通过对采集到的特征图进行下采样操作,改变特征图的尺寸大 小;全连接层则将特征图进行一维展开,连接到输出层进行分类。卷积神经网络的优 点是它可以自动地从原始图像中提取出特征,并且可以处理具有平移不变性的图像数 据,使得模型具有良好的泛化能力。在深度学习领域,卷积神经网络已经成为了一种 非常流行和成功的模型,广泛应用于图像分类、目标检测、人脸识别、自然语言处理 等领域。例如,在图像分类领域, LeNet、AlexNet、VGG、ResNet、Inception 等经典 卷积神经网络模型都取得了非常优异的结果。用图来表示神经网络的话,如图 2-1所示。 左边的一列表示为输入层,右边的一列表示输出层,中间的一列表示中间层(隐藏层)。
图 2-1 全连接网络结构图
如图 2-2 所示,卷积层的输入通常是一个多通道的图像数据,比如 RGB 三通道的 彩色图像,或者灰度图像的单通道数据。卷积核是一个小的滤波器,它的大小通常是 3x3、5x5、7x7 等,卷积核的个数通常是一个超参数,也就是需要指定的参数,例如在 卷积神经网络中,通常会设置几十个到几百个卷积核。在卷积操作中,卷积核会在输 入数据上进行滑动,对每一个位置上的数据进行加权求和,从而得到一个输出的特征 值。对于每一个卷积核,都可以得到一个特征图,多个卷积核的特征图叠加起来,就 可以得到输出的多通道特征图。卷积层使用了卷积核的权重共享和局部连接的特点, 这样可以减少网络的参数数量,从而避免过拟合的问题。在卷积操作中,还会涉及到 卷积的步长和填充的问题。卷积的步长表示卷积核每次移动的距离,步长越大,输出 的特征图尺寸越小;填充则是在输入数据的边缘填充一些0值,可以保持卷积后的特征 图和输入数据的尺寸一致,也可以减少特征图尺寸的缩小。卷积层的输出通常会经过
8
非线性激活函数的处理,如ReLU函数、Sigmoid函数等,增加模型的表达能力。此外,
在卷积神经网络中,通常会通过堆叠多个卷积层来提取更高级别的特征,这种深层次 的网络结构可以有效地提高模型的性能。
2.2数据遗忘技术
数据遗忘技术是用于从机器学习模型中删除特定数据影响的方法。它旨在确保在 用户请求删除个人数据或满足数据保护法规要求时,机器学习模型能够有效地忘记与 该数据相关的信息,以保护用户的隐私。遗忘的核心是通过调整机器学习模型,使其 在删除特定数据后不再受其影响。目前关于数据遗忘技术的方法研究层出不穷,框架 原理也不尽相同,并没有特定主流方法。常见的数据遗忘的方法可以分为模型不可知 方法、模型固有方法和数据驱动方法三种。模型不可知方法是与模型无关的数据遗忘 方法,适用于不同模型的遗忘过程或框架。模型不可知方法的核心思想适用于复杂的 模型(如深度神经网络),并有实际的结果。包括认证的删除方法和统计查询遗忘方法。 模型固有方法是为特定类型的模型设计的遗忘方法。这类方法的模型是固有的,但应 用并不一定是狭窄的,因为许多机器学习模型可以共享相同的类型。模型固有方法包 括线性模型的遗忘、基于树的模型的遗忘、贝叶斯模型的遗忘和基于DNN模型的遗忘。 数据分区方法使用数据分区机制来加快重新训练过程。或者对模型进行了部分重新训 练,在精度上有一定的限制。著名的数据分区方法例如 SISA 框架将数据划分为数据分 块和数据切片。每个数据块都有一个模型,最终输出是这些数据块上多个模型的聚合。 对于数据分块的每个数据切片,在训练期间存储模型检查点,以便可以从中间状态重 新训练新模。如图 2-3 所示, SISA 训练将正在学习的模型复制几次,其中每个副本接 收数据集的一个不相交的数据分块(或子集),类似于现有的分布式训练策略。 SISA 将 每个副本称为组成模型。然而, SISA 的训练方法与主流共享增量模型更新的方式上有
9
些不同, SISA 方法的各个组成模型之间没有信息交流。例如,如果每个组成模型都是 用随机梯度下降训练的DNN,则每个组成模型上计算的梯度在不同组成模型之间不共 享;每个组成模型都是单独训练的。这确保了数据分块(以及构成它的数据点)的影响仅 限于使用它进行训练的组成模型。每个数据分块被进一步划分为数据片,其中每个组 成模型以递增的方式(以有状态的方式迭代地)以增加数据片的数量进行训练。在推理时, 测试点被发生到每个组成模型,所有组成模型的结果被聚合。当一个数据点需要被遗 忘时,只有其训练集包含该数据点的组成模型受到影响。重新训练可以从包含需遗忘 数据点的数据片之前保存的最后一个参数状态开始,只有使用包含需遗忘数据点的数 据分片训练的组成模型需要重新训练。
图 2-3 SISA 方法原理图
2.3成员推理攻击技术
成员推理攻击(Membership Inference Attack)是一种针对机器学习模型的隐私攻 击技术,其主要目的是通过模型的输出结果来推断某个特定样本是否被用于模型的训 练。这种攻击方式通常是基于黑盒攻击模型,攻击者不需要了解模型的内部参数和结 构,只需要访问模型的输入输出数据即可。成员推理攻击的主要原理是,训练数据中 的样本对于模型来说具有一定的区分性,即模型对于训练数据和非训练数据的输出结 果有所不同。攻击者通过不断观察模型的输出结果,分析模型的输出结果与训练数据 之间的关系,从而推断出某个特定样本是否被用于模型的训练。本文主要通过成员推
10
理攻击来评估模型的鲁棒性和安全性,从而针对模型进行更加有效的攻击。
Shokri 等人[59]首先提出了针对集中式机器学习黑盒被动成员推理攻击架构。如图
2-4所示,攻击者在调用机器学习服务的API(Application Programming Interface)(例 如Google模型等),从目标模型直接获得预测输出,而由于API对于“熟悉”的训练数 据以及“不熟悉”的测试数据会在推理的置信度上存在差异,攻击者利用预测置信度 的波动差异来构造一个新的标签——“成员属性”,扩展数据的维度,并再次将数据按 照新标签归类训练,得到可以识别成员属性的攻击模型。
图 2-4 面向集中式机器学习的被动黑盒成员推理攻击原理图
Nasr 等人[60]提出了一种面向集中式机器学习的由攻击者主动发起的白盒成员推理 攻击。该方案的核心技术是随机梯度上升,随机梯度上升每次强制提高所有数据的梯 度,随机梯度下降则会强制降低成员数据的梯度,因此非成员数据的梯度依然上升。 攻击者在获取白盒模型之后,在训练结束后提取目标模型的参数,包括梯度、损失率 等,再投放到全连接层中来训练。通过检测这种区别,攻击模型会将成员信息转化为 一个分数,作为一个新的特征。之后,攻击者再构造一个无监督学习来区分成员数据 和非成员数据即可。
2.4后门攻击技术
后门攻击是本文的评价指标之一。对于训练样本的子集,BadNets[6i]攻击选择后门
11
模式(固定像素及其颜色/亮度),将此模式应用于样本,并将标签更改为目标后门标签。 在使用完整数据集的训练过程中,目标模型最终学会将后门触发器与目标标签相关联。 最近的工作改进了这种方法[62][63][64],将其扩展到迁移学习[65]。并避免了改变后门样本 的原始标签[66]。对于每个可能的标签,该方法使用优化程序搜索候选后门触发模式。 最近还提出了几种新的防御方法[67]。Veldanda[68]等人表明,Liu等人提出的防御方法对 自适应后门攻击无效。早期后门攻击BadNets后门攻击方法:假设用户将模型外包给了 第三方恶意平台。攻击者在训练过程中通过数据投毒的方式可以在模型中植入后门。
如图2-5所示,BadNets方法的训练过程主要包括两部分:第一部分通过在良性图像x 上附加后门触发器来生成中毒图像%',并将中毒图像的标签更改为攻击者指定的目标 标签yt,这样就产生了中毒样本(X',%);第二部分使用中毒样本和良性样本训练DNN
模型。攻击者将这两种样本进行混合后,可以训练出一个后门模型。
靶向标签:0
干净样本
恶意样本
这个后门模型在良性样本上表现良好,然而,如果把攻击样本输入到这个模型后,得 到的预测标签将变为攻击者指定的目标标签。 BadNets 方法是后门攻击的开山之作,后 续几乎所有基于投毒的攻击方法都是基于这种方法发展而来的。这项工作在 MNIST 数 据集上测试了后门攻击的效果,并取得了较高的攻击成功率。 BadNets 方法是单一目 标攻击,即攻击者通过源目标图像对来欺骗 DNN 模型,使 DNN 模型将源类(添加了 触发器)的投毒图像误判为目标类。这类攻击被称为“部分后门”,因为只有在触发器 应用于特定类的输入样本时后门才会响应。例如,在 MNIST 数据集中,攻击者在
12
CNN 模型中嵌入一个后门,该后门只对源标签为 2 的包含触发器的输入图像才会响 应。 虽然“部分后门”的特性限制了攻击者实现攻击的条件,但这种攻击策略可以规避 后门检测方法。传统的后门检测方法假设触发器对所有类的输入不可知,即只要触发 器存在,不管是哪个类,后门模型都会执行恶意动作。继BadNets方法之后,有许多 工作在基础的“部分后门”攻击之上提出了改进方法,进一步逃避后门检测工具的检 测。例如, Dumford 和 Scheirer 等人通过扰动 CNN 模型的权重, 将后门注入到 CNN 模型中;Tan和Shokri等人通过正则化对正常数据点和对抗性数据点使用不可区分的 潜在特征,从而绕过后门检测。
2.5本章小结
本章对本论文中所涉及到的概念、算法以及技术知识进行了详细的介绍。第一小 节主要介绍了深度学习为代表的机器学习模型训练框架和基本原理。第二小节介绍了 数据遗忘技术的原理及现有研究。第三小节介绍了成员推理攻击的原理以及现有研究。 第四小节重点介绍了后门攻击的原理以及现有研究。
13
14
第三章 面向深度学习模型的数据遗忘
3.1引言
数据遗忘方法不仅需要删除待遗忘数据,还需要完全消除这部分数据对目标模型 的影响。如前文所述,用剩下的数据重新训练是一个简单有效的方法,但会产成过大 的成本。为了能高效的进行遗忘,本文不希望在剩余数据上重新训练,而是基于已训 练好的目标模型,设计轻量级的遗忘算法,以快速实现数据遗忘。
如下图3-1所示,已知目标模型Minimal,完整训练集D,需遗忘的数据0。删除掉 需遗忘数据的剩余数据为,Dr=D-Df。数据遗忘要求从“initial中彻底消除Df的贡 献。
由于在外数据集上重新训练一个模型需要极高的时间代价,本文考虑取其一个子 集,假设为Ds,并用Ds快速训练一个新的模型Mo。显然,不同于“initial,Mo中没有Df 数据的训练痕迹,因此Mo中也不存在关于Df的贡献。如果能通过迭代学习,让0在 Minitial上的表现无限接近于在Mo上的表现,则认为从%tial中消除了Df数据的贡献, 完成了数据遗忘。
本文的方法取遗忘后的数据子集进行一次训练,将目标模型朝着子集模型的方向 进行迭代更新,直到遗忘数据在两者的数据分布几乎相同,此时认为数据已经被遗忘。 相较于现有研究,本文方法的轻量级主要体现在时间空间成本上:无需在大规模数据 中重新做一次训练过程,无需明显扩大存储空间。本文的方法较重新训练的方法速度 提升数十倍,大大减少了传统数据遗忘的计算成本。
图 3-1 本文提出遗忘方法框架
15
3.2遗忘问题原理
在本文的方法中,改变遗忘数据在模型中的表现从而校正模型的权重是核心思想。 首先,为了进行遗忘,需要确定一个权重校正的方向。在忽略掉成本的情况下,用删 除掉遗忘数据0后的剩下的数据集进行重新训练是一个简单有效的遗忘方法。基于 此想法,不妨把重新训练的模型作为遗忘的参照标准,来引导遗忘的方向。
本文训练一个参照模型Mo,其可训练参数为3,模型表示为匕3。考虑到时间成本, 从剩下的数据中随机选取一部分子集Ds(DsUD『)作为的训练样本。计算遗忘数 据Df在Mo上的输出分布P(3,X)作为参照,P(0,x)则表示Df在目标模型M的输出分布。
在图3-1中,遗忘前的初始模型是M诚tlal,Mo是参照模型,输入需遗忘数据到参 照模型和目标模型中,分别计算得到输出分布。将Mo固定,即参照模型的输出分布保 持不变,在迭代中调整M initial,使得目标模型的分布向参照模型的分布迭代靠近。在 迭代最终,两种分布近乎一样,Minitial迭代到最终遗忘后的模型Mfinal。
为了模拟遗忘数据E在参照模型Mo上的输出分布P(3,x),首先要量化P(3,x)与遗 忘数据E在M上的输出分布P(0, x)之间的距离d,本文采取了机器学习中常用的距离函 数Kullback-Leibler散度(KL散度)作为距离d,其计算的简易性有助于减少训练时间。 本文的目标是找到目标模型M的权重0上的特定扰动,以最小化P(3,x)与P(6,x)之间的 距离d (即为损失函数),从而达到模拟遗忘数据0在参照模型上的输出分布P(3,Q 的目的。因此损失函数:
另外,为了优化遗忘后模型的准确率,加入一则惩罚项是有必要的。设X’ EDr,其 对应的标签为Y, y' = f0(xr), H作为预测标签和真实标签的交叉熵损失[69],将对目标 模型的准确率进行校正:
Hce®,Y) = -[y'log Y + (1- y') log( 1-Y)] (3 - 2)
更新损失函数为:
ALkl(P(M,x),P(6,x)) + (1-A)HCE(y',Y) (3 - 3)
其中,久为惩罚系数,取值范围在(0,1)。ALkl(P(m,x),P(6,x))为损失函数(3-1)的
简写。当久为1时,式(3-3)的第二项(1-A)为0,消去第二项,即式(3-3)为
16
ALkl(P(m, x),P(6, x)),等同于公式(3-1)。
在遗忘过程中,本文希望最小化损失函数来达到使pg)迭代靠近p(e,x),从而 使得朝着的方向迭代,消除0数据的训练痕迹:
min A Lkl(P(m, x),P(6, x)) + (1- A)HCE(y', Y)
s.t. P(m,x) = {ytlyt - f0t(xi),x E Df} (3 - 4)
V ^fo(x')
算法3-1遗忘算法
输入:
初始目标模型&及其权重0,参照模型松。及其权重0。,需遗忘样本0,剩余样
本D「,剩余训练样本的子集Ds,惩罚系数久
输出:
遗忘后最终的模型/0丁 ;
1: for t — 1 to T do
2: P(^,x) (x)
^0
3: P(%Ht-i(X)
4: 山—ALKL(P(^,x),P(et-i,x)) + (1-A)HCE(y',Y)
5: &t — dt(0t-i)
6: end for
7: delete Df
8: return f3r
如算法3-1所示,首先,本文将每个遗忘数据集的样本x输入到参照模型Mo上并计 算输出分布P(3,x),同时将x输入到在当前(第t-1次迭代更新后的)模型/•&上计算 输出分布P(et,x),在第t次迭代时,通过公式(3-3)来获得第t次更新后的参数et
(Hce来自公式(3-2)),在T次迭代后得到遗忘后的最终模型。
数据遗忘符号表示:设D为整个数据集,Df = {Xi,yi}^i (Df u D)是由N个样本及其 对应标签y组成的需要遗忘的数据集,Dr (Dr U Df = D)为删除掉Df后剩下的数据集。 目标模型M,其可训练参数为6,模型表示为&。
数据遗忘定义:给定一个数据集D,需遗忘数据集用D训练的模型f,其参数 为0。用少训练的模型仏其参数为&。假定(模型加勺服从后验分布P)玄(Df)~P,如
17
果/•满足feT(Df)~P (模型/•在遗忘后也服从后验分布P),则认为是数据遗忘。
3.3参照模型设计
在本文的方法中,遗忘被看作为一个朝着没有遗忘数据训练的模型方向靠近的过 程。重要的是能有一个参照模型,提供给目标模型变化的方向。这个参照模型不应 该把遗忘数据0作为训练集,才能确保其提供的方向能引导目标模型最终遗忘0。而 对于来说,Df并非属于其训练集,因此当$输入计算时,得到的输出分布P(3,x)与 其训练数据得到的分布不相似。当目标模型对E的输出分布P(d,x)几乎等于参照模型 对E的输出分布时,Df对于目标模型来说,其输出分布P(d,x)已经与其他训练数据的 输出分布不相似了,此时认为E已经不再具有作为训练成员对模型的影响,此时这部 分数据已经被遗忘。如果仅仅把0不可以是训练数据作为的条件,那么选用与目标 模型权重分布相差太远的模型进行训练,虽然可以达到遗忘的目标,但却会对目标模 型的权重有严重影响,摧毁了目标模型本身的性能,使其不能正常工作。因此,在选 择参照模型时,还需要考虑参照模型的权重分布与目标模型的权重分布要尽量相似, 以致遗忘后的目标模型的调整在一个微小区间,不会影响其本身的性能。理想情况下, 一个删除掉需遗忘数据E后用剩下全部数据少训练的模型,其训练数据与目标模型的 训练数据也相同,因此权重分布也相同,所提供的方向自然是最优选择。但重新训练 模型需要消耗大量的时间空间,所以找到效果相同且成本尽量小的参照模型则是更 好的方法。因此在本文的方法中,采用了剩下的全部数据外的子集Ds作为参照模型的 训练集,在保证与重新训练模型分布相差较小的情况下,减少了训练参照模型所需消 耗的时间成本。
参照模型定义:给定一个数据集D,需遗忘数据集Df,剩下数据为De U Df = D。 用Dr训练的模型仏其参数为&。假定(模型加勺服从后验分布P)暫(Dr)~Q,如果一个 模型r满足r(Dr)~Q',且KL(Q.Q') « 0,则认为r是参照模型。
18
3.4评估方法
3.4.1成员推理攻击原理及分析
在遗忘之后,还需一项工作来判断遗忘数据对模型带来的影响是否已经彻底消除。 成员推理攻击可以根据分布判断某个样本是否存在于某个模型的训练集中。成员推理 基于一个阴影模型实现,首先需要准备一个与目标模型训练集分布类似的数据集成为 阴影数据集,以这个阴影数据集为训练集,可以训练一个阴影模型。此时,继续准备 阴影模型,阴影训练集,阴影非训练集。以此为基础,训练一个二分类攻击模型,在 给定一个输入后,这个攻击模型可以判断出其是否是目标模型的训练集成员。在本文 的方法中,采用了成员推理攻击[59]来评估遗忘后模型中仍残存的遗忘信息。在这个方 法中,成员推理的攻击模型是基于遗忘前的原始模型训练得来,能够准确区分学习或 未学习过的数据,依照输入样本的后验分布与剩下数据的后验分布差异来判断其是 否为成员数据。在本文的实验中,如图 3-2所示,将需遗忘的数据输入到最终模型中, 计算输出分布,攻击模型根据此分布来判断是否为目标模型的成员数据。若攻击模型 推理出遗忘数据为非成员数据,则表示遗忘成功。
成员推理攻击定义:假定成员推理攻击算法为。,给定一个目标模型厂当 d(f(x)) = True时,推理结果为成员数据,当d(f(x)) = False时,推理结果为非成员 数据。
需遗忘样本是否属于g标模型的成员数据?
攻击模型
图 3-2 成员推理攻击流程
19
3.4.2后门攻击原理及分析
后门攻击作为一种常见的攻击方法,有助于评估遗忘效果。将后门植入在部分数 据中,植入后门的数据会被统一打上特定标签。经过后门数据训练生成的模型“记住” 了后门信息,在遇到同样后门时会被触发,产生同样的预测结果也就是固定的标签。 将这一原理在应用在本文的实验中,如图3-3所示,首先将后门植入在遗忘数据$中, 标签设置为特定标签,将其与正常数据(即剩余数据Dr)一同训练生成原始模型M。 如图3-4左边所示,此时的M在遇到正常测试数据时可以正常预测,遇到具有同样后门 的测试数据时则会产生设定的特定标签。将其应用在遗忘评估阶段,假定本文已经具 有经由后门遗忘数据和正常剩余数据训练而来的目标模型M,此时用本文的方法进行 遗忘,理想情况下,如图3-4右边所示,遗忘后的模型Mfinal将不会再受到遗忘数据0 的影响,也就是说,具有后门的数据已经被遗忘。此时将携带后门的测试数据输入 Mfinal后,得到的概率分布将会与正常数据的概率分布相似,也会产生与装置后门前同 样的预测结果,而非后门打上的特定标签。因此这部分具有后门的测试数据的测试准 确率(即后门攻击成功率)会较低。反之,数据没有被完全清除的情况下,模型还 “记得”后门信息,在遇到测试数据时,其概率分布将会与正常数据的概率分布相差 较大,往往会预测得到后门打上的特定标签。因此这部分具有后门的测试数据的测试
准确率会较高。
图 3-3 目标模型训练前植入后门
20
图 3-4 测试后门
后门攻击定义:给定后门攻击算法边,一个目标模型/•,其参数为0,正常训练样本 (x,y)ED.后门训练样本(x',y')GDf。若出现n(f0(x,)) = y1,则代表后门攻击成功, 若n(f0(x')) = y,则攻击失败。
在本文的方法中,在有后门数据训练得来的模型经过数据遗忘后,得到的模型feT 中,输入携带后门的需遗忘数据x',若得到^(foT(x')) = y,代表遗忘成功,反之,若 得到^(feT(x')) = y',则代表遗忘失败。
3.5实验设计
在实验中,本文采用了 MNIST, fashion-MNIST, CifarlO, SVHN数据集。遗忘数据 样本的大小均为数据集样本数的百分之一,分别是 600,600,500,732 张。本文在不同模 型上测试了遗忘方法的效果,包括多层感知机,Lenet, Resnet-18,VGG16,如表3-1所 示。
表 3-1 实验所用数据集及模型
数据集 模型 训练样本数 类别数
Mnist Lenet 60000 10
Fashion-mnist MLP 6OOOO 10
SVHN 8*conv+FC 73257 10
Cifar1O.R Resnet18 50000 10
Cifar1O.V VGG16 50000 10
21
Mnist: MNIST 数据集是分割和居中手写数字灰度图像的基准数据集。本文使用了 60000个训练示例、和10000个测试示例,其中每个图像的大小为28x28像素。在目标 模型的选择中使用了 LeNet-5[70],是2*conv, 1*pool, 1*FC构成的网络架构,用于手 写体字符识别的非常高效的卷积神经网络。
Fashion-mnist: Fashion MNIST[71堤Zalando文章图像的数据集,包括60000个示例 的训练集和 10000 个示例的测试集。每个示例都是一个 28x28 的灰度图像,与来自 10 个类别的标签关联,每个类别都是一种衣服项目。数据集与 MNIST 共享相同的图像大 小和训练和测试分割结构。目标模型的选择中,本文使用了多层感知机。
cifar10: CIFAR-10 是用于评估图像识别算法的基准数据集。该数据集由 60000 张 大小为 32x32 的三通道彩色图像组成,分为“飞机”、 “狗”、 “猫”等 10 个类别。 CIFAR- 10 是一个平衡的数据集,每个类别随机选择 6000 张图像。在 CIFAR-10 数据集中,本 文使用了 50000 个训练图像和 10000 个测试图像。在 cifar-10 的目标模型选择上,本文 使用了 Resnet18[72]。为了更好的对比不同模型带来的影响,在cifar-10数据集上,本文 还另外使用了 VGG16 作为目标模型。
SVHN: SVHN(Street View House Number)数据集来源于谷歌街景门牌号码。训 练集由 73257 张大小为 32x32 的三通道彩色图像组成,分别为数字 1 到 10。测试集由 26032张图像组成。在SVHN数据集的目标模型选择上,本文采用了多层感知机。
在选定久和参照模型情况下(如表3-2所示),本文从遗忘后的准确率,成员推理攻击 和后门攻击以及遗忘所需时间方面评估了本文的方法里遗忘后模型的表现。
表 3-2 默认参数设置
数据集 模型 训练样本数 久取值 参照模型训练
样本数
Mnist Lenet 60000 0.01 6000
Fashion-mnist MLP 60000 0.01 6000
SVHN 8*conv+fc 73257 0.01 7325
Cifar10.R Resnet18 50000 0.001 5000
Cifar10.V VGG16 50000 0.001 5000
22
3.6实验结果
1、性能评估
A.准确率
准确率是目标模型训练的重要指标。为了将数据遗忘应用在实际中,遗忘方法不应 该不影响目标模型本身的性能。因此,本文将会对遗忘前后目标模型准确率的变化进 行评估。在准确率评估实验中,本文使用了遗忘前目标模型的准确率作为参照,对比 了本文遗忘方法、重新训练遗忘方法以及 SISA 遗忘方法在遗忘后的准确率。其中重新 训练遗忘方法设置为:将目标模型的全部训练集D中移除掉需遗忘部分的数据用D 中剩余数据少重新训练目标模型。SISA方法的设置为:将目标模型的全部训练集D划 分为不同数量的数据块,独立训练为单个模型。独立训练单个模型时,数据块会被划 分不同数量的数据片。在实验中,需遗忘数据$的位置分布被设置成两种情况。第一 种情况下0分布在用一个数据块的同一个数据片中。第二种情况下0分布在不同的数 据片和不同的数据块中。综合两种情况下的训练结果,取平均值作为 SISA 方法的最终 遗忘效果。
不同数据集遗忘后的准确率如图 3-5 所示,横坐标分辨代表不同数据集,纵坐标代 表模型准确率。对于mnist数据集,第一列遗忘前精度为98.97%,第二列在删除掉百分 之一的样本后重新训练得到 98.96%的精度,因样本量没有大量减少并没有导致精度明 显下降,第三列在通过本文的方法进行遗忘后的精度为 97.16%,相较重新训练的模型 来说精度没有明显下降,说明本文的方法并不会导致遗忘后的模型不会影响目标模型 本身的性能。第四列为用 SISA 方法进行遗忘后的模型精度,为 95.16%。对于 cifar10 数据集在 resnet 上的表现,第一列遗忘前精度为 89.13%,第二列重新训练得到的精度 为 88.19%,第三列在本文的方法中,遗忘后的模型精度为 89.88%,略高于重新训练的 模型。第四列为用 SISA 方法进行遗忘后的模型精度,为 83.19%。对于 cifar10 数据集 在 VGG16 上的表现,遗忘前后趋势与在 resnet18 相同。准确率定义为 accuracy = (TP+TN)/(P+N), 被分 类正 确 的 样 本 数 除 以 所有 的 样 本 数 。 其 中 :(1)True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实 例数(样本数);(2) False positives(FP):被错误地划分为正例的个数,即实际为负例但 被分类器划分为正例的实例数;(3) False negatives(FN):被错误地划分为负例的个数,
23
即实际为正例但被分类器划分为负例的实例数;(4) True negatives(TN):被正确地划分 为负例的个数,即实际为负例且被分类器划分为负例的实例数。
图 3-5 不同数据集遗忘前后准确率对比
B.成员推理攻击准确率
在推理阶段,需要遗忘的数据输入到攻击模型后,攻击模型会根据遗忘数据在目标 模型上的输出分布来推理是否为目标模型的成员数据。在对遗忘前目标模型的成员推 理攻击实验中,目标模型的全部训练集D按照4:1的比例被划分为两部分,一部分投入 攻击模型的训练使用,另外一部分则和目标模型的测试集一同作为攻击模型的测试数 据,用以评估成员推理攻击模型的准确率。在对遗忘后的模型的成员推理攻击实验中, 目标模型除去需遗忘数据后的剩余数据集外被划分为两个部分,一部分投入攻击模型 的训练使用,这部分数据的标签为 1,代表是成员数据,另外一部分(标签为 1,代表 成员数据)和目标模型的测试集(标签为0,代表非成员数据)一同作为攻击模型的测 试数据,同样作为攻击模型的测试数据的还有需遗忘数据E (标签为1)。
在遗忘前,需遗忘的数据0是目标模型成员数据D的一部分,这部分数据的输出分 布与其他成员数据的输出分布相似,对于攻击模型来说能较轻松将其正确识别为成员 数据。在遗忘后,需遗忘的数据$在目标模型上的输出分布不再与成员数据D在目标模 型上的输出分布相似,攻击模型将$错误识别为非成员数据,因此攻击准确率会有所 下降。
如图 3-6 所示,横坐标分辨代表不同数据集的训练结果,纵坐标代表成员推理攻击 的准确率。如第一列所示,遗忘前,攻击模型对于Mnist数据集的成员推理攻击准确率 能够达到 53.5%。遗忘后,需遗忘的数据已经不是目标模型的成员数据,因此其输出分
24
布与成员数据的输出分布差异较明显,攻击模型将其错误预测为非成员数据,成功率 为 50%,与攻击重新训练模型得到的结果相似。成员推理攻击准确率的下降,代表达 到遗忘目的。也就是说,此时需遗忘的那部分数据对遗忘后的目标模型来说,就对像 重新训练的模型那样,遗忘掉了目标模型“记住的”信息。
图 3-6 不同数据集遗忘后的成员推理准确率对比
C.后门攻击成功率
为了判断遗忘是否完全,本文使用后门攻击成功率来评估遗忘效果。在实验中, 首先将需要遗忘的数据植入后门,打上固定标签,与剩下的正常数据一起作为目标模 型的训练数据。此时训练完成的目标模型已经“记住”了携带后门的遗忘数据,因此 模型对 98%的后门数据(即需遗忘的数据)的推理结果与其被设置的固定标签吻合, 这部分数据后门攻击成功率高达 98%。下一步将这个目标模型使用本文的方法进行遗 忘,得到了遗忘后的目标模型。再次将携带后门的数据输入计算,得到的成功率不到 20%,说明模型对80%的后门数据(即需遗忘的数据)的推理结果与其被设置的固定标 签不吻合。需遗忘的数据后门攻击成功率从 98%下降到 20%,说明使用本文的方法确 实让目标模型“忘记”了在训练阶段“记住”的后门信息,因此证明遗忘成功。如图 3-7 左图所示,横坐标表示迭代次数,纵坐标表示后门攻击成功率。在遗忘过程中,不 需要遗忘的数据,其后门攻击成功率保持较高的水平。而在遗忘数据上,其后门攻击 成功率由最初的 98%下降到较低的水平。
25
rest data
—forget data
图 3-7 mnist 数据集遗忘后的后门攻击成功率对比(左)
cifar 数据集遗忘后的后门攻击成功率对比(右)
D.时间代价
除了性能外,效率是数据遗忘的关键因素。本文的目的即是在达到与重新训练效 果几乎相同的基础上,耗费比重新训练更少的时间。以重新训练后的模型为参照,本 文的方法在时间消耗上可以提高数十倍。如表3-3所示,对mnist数据集,需要遗忘的 数据占总数据集的百分之一,一共600条,用本文的方法进行遗忘,需要两次迭代达到 终点,所需时间为3.81s。在训练参照模型时,需花费42.81s,总时长为46.62s。用删 除掉需遗忘信息后重新训练的方法花费的总时长为750.69s。对比起来,本文的方法加 速为 16.10倍。其他同理。
表 3-3 不同数据集遗忘所需的时间对比
数据集 遗忘样
本数 迭代
次数 训练时长
(s) 参照模型
训练时长
(s) 总时长
(s) 重新训练
时长(s) 加速
( 倍 )
Mnist 600 2 3.81 42.81 46.62 750.69 16.10
Fashion-
mnist 600 10 10.418 67.59 77.008 1283.21 16.66
SVHN 732 10 11.028 140.29 151.31 2371.02 15.67
Cifar10.R 500 20 22.51 143.70 166.21 2512.34 15.11
Cifar10.V 500 20 23.33 141.95 165.28 2753.96 16.66
2、遗忘系数久的影响
上一章中讲到,本文使用了精度惩罚项来约束目标数据遗忘后的精度损失(式 3-
3),其中久作为正常遗忘项的系数,1-久则是惩罚项系数,为了得到最佳的遗忘效果同 时不损失过高的训练精度,平衡两项的权重是必要的。在实验中,本文尝试了使用不
26
同久对遗忘性能的影响,如图3-8左图所示,横坐标代表迭代次数,纵坐标代表模型准 确率, 3-8 右图横坐标代表迭代次数,纵坐标代表后门攻击成功率。以 mnist 数据集为 例,当久取值为1和0.1时,遗忘中目标模型的准确率有明显下降;取值为0.01、0.001 和0.0001时,准确率保持稳定。用后门攻击成功率来衡量遗忘效果可以看到,当久取值 为0.01时,准确率最低,说明遗忘效果最好。权衡准确性和遗忘效果,久取0.01最合 适。其他数据集同理,分别为 0.01 (fashion-mnist), 0.001 (cifar)。
图3-8久取不同值对mnist数据集遗忘后的准确率影响(左)
久取不同值对mnist数据集遗忘后的后门攻击准确率的影响(右)
图3-9久取不同值对cifar10.R数据集遗忘后的准确率影响(左)
久取不同值对cifar10.R数据集遗忘后的后门攻击准确率的影响(右)
3、参照模型样本数的影响
在第一章中讲到,为了消除遗忘数据对目标模型的影响,目标模型需要向着由 重新训练的模型的方向迭代靠近,考虑到时间成本,可以从中选取一个子集Ds,由 Ds训练生成参照模型Mo。让目标模型向着参照模型的方向迭代。如图3-10左所示,。 在mnist数据集上,Df在重新训练模型的后验分布与参照模型的后验分布几乎重合。如
27
图3-10右所示,在cifar10数据集上,Df在重新训练的模型的后验分布与参照模型的后 验分布也十分接近。这说明参照模型与重新训练模型的训练方向一致,将参照模型作 为遗忘的参照对象是一个正确且能减少时间成本的选择。
图 3-10 mnist 数据集在重新训练模型的输出分布与在参照模型的输出分布对比(左)
Cifar10.R数据集在重新训练模型的输岀分布与在参照模型的输岀分布对比(右)
针对不同的数据集,分别从剩下数据中取子集Ds来训练参照模型Mo, Mo的默认设 置如表3-4。每个Mo的初始模型的结构均与遗忘前模型M的初始模型相同。
如表3-4所示,就Mnist数据集而言,用总训练集D总数的十分之一即6000条样本 训练Mo,在迭代终止即50个epoch后,训练精度可以达到85.52%,测试精度为85.45%。 训练参照模型共需花费42.81s。其他数据集同样。
表 3-4 参照模型的训练信息及训练时间和精度
数据集 训练样本 数 迭代次数 训练集准确率 测试集准确率 时间(秒)
Mnist 6000 50 87.40% 87.05% 42.81
Fashion-mnist 6000 80 79.17% 78.38% 67.59
SVHN 7325 80 79.45% 79.90% 140.29
Cifar10.R 5000 60 69.90% 68.40% 143.70
Cifar10.V 5000 80 66.98% 65.56% 141.95
如表3-5所示,以mnist数据集为例,分别取样本数为2000、4000、6000、10000、
15000 作为参照模型的训练数据数量。当取值为 6000 时,参照模型收敛后得到的训练 准确率和测试准确率分别为86.35%和86.26%,训练花费时间为42.81s。用当前模型作 为遗忘的参照模型,得到遗忘后的模型精度为 98.27%。测试当前遗忘后的模型的成员
28
推理攻击成功率为49.00%。Fashion-mnist数据集具有相同的效果。
表3-5参照模型训练样本数对mnist的影响
数据集 训练样本
数 迭代
次数 训练集准
确率 测试集准
确率 遗忘后准
确率 成员推理 攻击成功 率 遗忘时长
(秒)
2000 70 83.68% 83.05% 98.08% 50.00% 24.07
4000 50 86.35% 86.26% 98.53% 51.50% 30.55
Mnist 6000 50 87.40% 87.05% 98.27% 49.00% 42.81
10000 50 88.27% 88.62% 98.56% 51.50% 62.78
15000 50 97.79% 97.53% 98.48% 50.50% 90.33
图3-11 mnist数据集参照模型训练数据量对遗忘后目标模型精度的变化影响(左)
mnist数据集参照模型训练数据量对遗忘后目标模型成员推理攻击成功率的影响(右)
表3-6参照模型训练样本数对cifar10.R的影响
数据集 训练样
本数 迭代次 数 训练集准
确率 测试集准
确率 遗忘后准
确率 成员推理
攻击准确
率 遗忘时长(秒)
3000 100 56.09% 54.57% 87.34% 50.00% 41.62
5000 100 69.90% 68.40% 85.85% 52.50% 143.70
Cifar 7500 100 76.00% 73.76% 87.90% 52.50% 821.07
10000 100 78.53% 76.91% 87.64% 51.00% 1233.21
15000 100 82.48% 80.51% 90.24% 53.00% 1574.09
29
图3-12 cifar10数据集的参照模型训练数据量对遗忘后目标模型精度的变化影响(左) cifar10数据集的参照模型训练数据量对遗忘后目标模型成员推理攻击成功率的影响(右)
如图 3-12 所示,横坐标代表训练样本数量,纵坐标代表用此样本数的参照模型进 行遗忘后目标模型的的精度,对 cifar10.R 数据集来说,分别取样本数为 3000、 5000、 7500、 10000、 15000作为参照模型的训练数据数量。当取值为5000时,参照模型收敛 后得到的训练准确率和测试准确率分别为 69.90%和 68.40%,训练花费时间为 143.7s。 用当前模型作为遗忘的参照模型,得到遗忘后的模型精度为 85.85%。测试当前遗忘后 的模型的成员推理攻击准确率为 52.50%。 cifar10.V 数据集具有相同的效果。如图 3-12 左所示,当取不同大小的参照模型训练集时,对最终遗忘后的模型精度没有明显的影 响趋势。
4、遗忘前后的分布
为了验证本文的方法进行数据遗忘并没有影响模型本身的性能,本文统计了不同数
mnist数据集在遗忘前(黄色线)与遗忘后(绿色线)的输出分布几乎重合。图3-13右 所示, cifar10 数据集在遗忘前(蓝色线)与遗忘后(红色线)的输出分布也几乎重 合,这意味着使用本文的方法,能够使得目标模型遗忘前后模型几乎不受到影响。
3.7本章小结
基于数据遗忘问题,本章明确了数据遗忘问题的原理和定义,详细介绍了参照模 型的提出原理和设计方法,接着介绍了本文所用到的验证数据是否遗忘的方法及其原 理分析,最后基于本文的算法在多个模型架构及数据集上进行有效性验证。
31
32
第四章 面向医学影像的数据遗忘
4.1引言
人工智能是医学图像分析领域正在不断发展的技术,通过高效地提供高质量的诊 断结果,大幅减少或消除人力,也直接帮助对抗新型冠状病毒等疾病。广泛应用于智 能医院、生物医学、图像分析等方面,帮助医院提供给患者更便捷的服务,同时减轻 医疗人力成本的负担。然而,现有研究表明现有深度学习模型还存在数据安全问题, 投入医学模型下的患者敏感信息存在泄露的风险,因而对医学场景下的数据遗忘研究 是有必要的。
4.2医学数据遗忘
在本文的方法中,改变遗忘数据在模型中的表现从而校正模型的权重是核心思想。
如图 4-1 所示,将需遗忘数据输入进参照模型和目标模型中,分别得到其在两个模型上 的输出分布p和q,用第三章中式(3-3)最小化两种分布的差异,使得遗忘数据在目标 模型上的输出分布q向着遗忘数据在参照模型上的输出分布p迭代靠近,从而达到微调 目标模型中权重参数的目的。另外,由于需遗忘数据并非参照模型的训练数据,因此 参照模型并不具有关于需遗忘数据的特定记忆。本文方法通过微调目标模型中的权重 参数,使得遗忘数据在目标模型上的表现近似于其在参照模型上的表现,从而达到了 让目标模型变得像参照模型一样不具备对于遗忘数据的特定记忆,完成数据遗忘。
迭代优化
图 4-1 医学场景下的遗忘框架
33
对医学图像进行数据遗忘实验较第三章中的公开数据集实验有所区别。首先,与 传统的计算机视觉数据集相比,医学图像数据集通常相对较小。而深度学习模型通常 需要大量的数据进行有效训练,因此在训练前需要进行对医学图像的数据增强以降低 对目标模型训练结果的影响。即使如此,由于医学数据集存在着同一类别的图像(如 针对新冠检测的肺部CT图像)间差异过小的问题,图像间明显的分布变化会较大程度 上影响目标模型的训练结果和遗忘效果。
此外医学图像数据集中经常存在类别不平衡的情况,即某些类别样本的数量相对 较少。这可能导致深度学习模型对于常见类别的学习效果更好,而在罕见类别上表现 较差。本文使用过采样、欠采样、类别权重调整解决类别不平衡问题。另外,考虑到 在实践医疗中,具有遗忘需求的患者往往是模型训练集中的阳性病例。因此在实验中, 需遗忘数据更多从阳性样本中随机采集,以验证本文方法在实际医学场景下的适用性。
4.3实验结果
4.3.1covid-19 数据集
在实验中,本文采用了公开新冠肺炎数据集,其中包括 425 张 CT 切片,来自 127 位患者数据;该数据集是收集自多家医院的肺部横断面图像,如图 4-2所示,用以诊断 是否患有新冠肺炎。本文使用efficient-net测试了本文的方法在该数据集上的效果。
图 4-2 covid-19 数据集样本示例
实验设置:模型选用efficient-net模型,在选定遗忘系数2选定为0.01,参照模型样 本数选定为200个的情况下,本文从遗忘后的模型的精度,成员推理攻击和后门攻击以 及遗忘所需时间方面评估了本文的方法里遗忘后模型的表现。其中,参照样本以随机 选取的方式从剩余样本中采集200个。考虑到在新冠病变检测中漏诊率的重要性,本实
34
验的 35个遗忘样本都为阳性样本,从全部阳性样本中随机选择 35个。
准确率评估:目标模型的功能为准确检测出病变结果,本文用准确率进行评估,即 被分类正确的样本数除以所有的样本数。在进行遗忘时,除了要达到遗忘效果外,保 证遗忘后的目标模型精度也是很重要的因素。因此,在遗忘时,要注意调整遗忘系数 以确保精度的稳定。在本文的实验中,选取了遗忘前目标模型的精度和用重新训练的 方法得到的精度进行参照。如下图所示,对于 covid-19 数据集来说,遗忘前的目标模 型精度为 0.922,用重新训练的方法得到的精度为 0.906,用本文的方法进行遗忘后的 精度为 0.902。其他数据集同理。
成员推理攻击准确率评估: 在推理阶段,将需要遗忘的数据输入到攻击模型中,攻 击模型根据其在目标模型上的输出分布来推理是否为目标模型的成员数据。在遗忘前, 需遗忘的数据E是目标模型成员数据D的一部分,这部分数据的输出分布与其他成员数 据的输出分布相似,对于攻击模型来说能较轻松将其正确识别为成员数据。在遗忘后, 需遗忘的数据$在目标模型上的输出分布不再与成员数据在目标模型上的输出分布相 似,攻击模型将E错误识别为非成员数据,因此攻击准确率会有所下降。
3.3 节中讲到,本文在选取参照模型时,通过划分重新训练数据集的子集得到参照 模型的训练集,Dr代表目标模型训练集除去需遗忘样本后的剩余训练样本,参照模型 的训练集为剩余训练集的子集,样本大小Ds = kxDr,其中k为参照模型训练样本量系 数。如图4-3所示,横坐标代表参照模型的样本量系数k,纵坐标代表使用此参照模型 进行遗忘后的成员推理攻击准确率。可以看到,在使用本文的方法进行遗忘后,目标 模型成员推理攻击准确率在 50%左右,较遗忘前有所下降,且攻击的准确率与重新训 练的方法攻击准确率没有明显差异。这意味着对于攻击模型来说,需要遗忘的数据被 分类成了非成员数据。也就是说,此时需遗忘的那部分数据对遗忘后的模型来说,就 对像重新训练的模型那样,遗忘掉了目标模型“记住的”信息。
35
后门攻击成功率评估: 为了判断遗忘是否完全,本文使用后门攻击来评估遗忘效果。 在实验中,首先将需要遗忘的数据植入后门,打上固定标签,与剩下的正常数据一起 作为目标模型的训练数据。此时训练完成的目标模型已经“记住”了携带后门的遗忘 数据,因此模型对 98%的后门数据(即需遗忘的数据)的推理结果与其被设置的后门 固定标签吻合,这部分数据测试精度高达 98%。下一步将这个目标模型使用本文的方 法进行遗忘,得到了遗忘后的目标模型。如图4-4所示,蓝色线代表后门数据即需遗忘 数据随迭代次数后门攻击成功率的变化,红色线代表剩余数据随迭代次数后门攻击成 功率的变化,此时的目标模型变得不再认识后门,成功率降到 15%,而对剩余数据集 的攻击成功率保持在较高的水平,为87.15%。
20
rest data
—forget data
4 6
epoch
图 4-4 遗忘后的后门攻击成功率对比
时间代价: 参照模型的训练集选取可能会对本文方法的训练结果产生特定影响。如 图4-5所示,横坐标代表参照模型的样本量系数k,当k取0.05时,遗忘时间为103.5s, 当k取0.3时,遗忘时间为252.3s。其他同理。
36
4.3.2ChinaSet 数据集
该数据集中的 X 光片图像由中国广东省深圳市第三医院采集。 X 光片是深圳医院常 规护理的一部分。该集合包含JPEG格式的图像。有326张正常X线片和336张异常X 线片显示结核病的各种表现。如图 4-6 所示,用以诊断是否患有肺结核。
实验设置:模型选用efficient-net模型,在选定遗忘系数2选定为0.01,参照模型样 本数选定为200个的情况下,本文从遗忘后的模型的精度,成员推理攻击和后门攻击以 及遗忘所需时间方面评估了本文的方法里遗忘后模型的表现。其中,参照样本以随机 选取的方式从剩余样本中采集200个。考虑到在新冠病变检测中漏诊率的重要性,本实 验的 100 个遗忘样本都为阳性样本,从全部阳性样本中随机选择 100 个。
准确率评估:对于新冠肺炎的病变检测,本文用准确率评估其模型性能。在2取值为 0.1 的情况下,遗忘前,原始目标模型的检测准确率达到 99%,使用本文的方法进行遗
37
忘之后,目标模型的分类准确率为 92.15%,精度变化在 10%以内。精度控制惩罚项的 权重会影响遗忘后模型的性能,即不同2取值将会对遗忘后的模型分类准确率产生不同 的结果。如图所示,当2取值为0.1时,准确率最高。
成员推理攻击准确率评估: 使用成员推理攻击遗忘前的目标模型,测试被遗忘数据 集是否属于其成员数据,得到 57.5%的准确率。攻击重新训练的模型,得到 54.5%的准 确率。使用本文的方法进行遗忘后,攻击遗忘后的模型,得到 53%的准确率。相较而 言,对于遗忘前的模型,成员推理攻击结果认为需遗忘的数据是目标模型的成员数据, 而对于重新训练和使用本文的方法得到的遗忘后的模型,攻击模型认为需遗忘数据是 目标模型的非成员数据。因此,判断完成遗忘任务。参照模型训练样本数对遗忘效果 的影响如图4-7所示,当k取值0.1时,得到的成员推理攻击准确率为54.5%,当k取 值0.3时,得到的准确率为53%,当k取值0.9时,得到的准确率为54%,可见,参照 模型训练样本数对遗忘性能影响不明显。
后门攻击成功率评估: 使用后门攻击的方法评估遗忘效果。在目标模型训练前对需 遗忘数据安插后门,训练完成后得到的目标模型对后门的识别率(即后门攻击成功率) 高达 99%,对剩余数据的分类准确率达到 99%。使用本文的方法遗忘后,目标模型变 得不再认识后门,识别率降到 15%,而对剩余数据集的分类准确率保持在较高的水平, 为 92.15%。
after unlearning
80
时间代价: 如图 4-8 所示,蓝色虚线为重新训练所需的时间,当选定参照模型的参
数k为0.3时,遗忘时间为218.33s。当k取0.5时,遗忘时间为257.1s。其他同理。
38
4.3.3Combo 数据集
来自卡塔尔大学、卡塔尔多哈和孟加拉国达卡大学的一组研究人员以及来自巴基 斯坦和马来西亚的合作者与医生合作,创建了一个用于 COVID-19 阳性病例的胸部 X 光图像数据库,以及正常和病毒性肺炎图像。包括 3616 个 COVID-19 阳性病例以及 10,192 个正常、6012 个肺部混浊(非 COVID 肺部感染)和 1345 个病毒性肺炎图像。 如图 4-9 所示,用以诊断是否患有新冠肺炎或病毒性肺炎。
实验设置:选用RESNET18模型,在选定遗忘系数2选定为0.01,参照模型样本数 选定为 2116 个的情况下,本文从遗忘后的模型的精度,成员推理攻击和后门攻击以及 遗忘所需时间方面评估了本文的方法里遗忘后模型的表现。其中,参照样本以随机选 取的方式从剩余样本中采集 2116 个。考虑到在新冠病变检测中漏诊率的重要性,本实 验的 100 个遗忘样本都为阳性样本,从全部阳性样本中随机选择 100 个。
39
准确率评估: 对于新冠肺炎、病毒性肺炎的病变检测,本文用准确率评估其模型性 能。遗忘前,原始目标模型的检测准确率达到 99%,使用本文的方法进行遗忘之后, 目标模型的分类准确率为90.3%,精度变化在10%以内。
成员推理攻击成功率评估: 使用成员推理攻击遗忘前的目标模型,得到 59.5%的准 确率。攻击重新训练的模型,得到 56.5%的准确率。使用本文的方法进行遗忘后,攻击 遗忘后的模型,得到56.5%的准确率。对于遗忘前的目标模型,成员推理攻击认为需遗 忘的数据是其成员数据,而对于重新训练和使用本文的方法得到的遗忘后的模型,攻 击模型将其分类为非成员数据,攻击准确率降低。
后门攻击成功率评估: 如上一章所讲,使用后门方法攻击遗忘前的模型,得到的后 门识别率为 99%。在遗忘之后,得到的后门识别率为 15%,而对剩下数据集的分类准 确率为 98%,说明带有后门的数据被遗忘,即完成了遗忘任务。
时间代价: 如图 4-10所示,蓝色虚线为重新训练所需的时间,当选定参照模型的参
数k为0.3时,遗忘时间为212.88s。当k取0.5时,遗忘时间为366.89s。其他同理。
图 4-10 参照模型样本数对训练时间的影响
4.3.4DR数据集
DR数据集:来源kaggle竞赛,包含来自2015年糖尿病视网膜病变检测和 APTOS2019 失明检测比赛的图像。该数据集包括 38788 个样本病例。根据病变严重程 度分为五个类别:level。-无病变,level1-轻度DR, level2中度DR, level3重度DR, level4增殖性DR。如图4-11所示,用以诊断是否存在糖尿病视网膜病变。
40
图 4-11 DR 数据集样本示例
实验设置:选用RESNET50模型,在选定遗忘系数2选定为0.001,参照模型样本数 选定为 3878 个的情况下,本文从遗忘后的模型的精度,成员推理攻击和后门攻击以及 遗忘所需时间方面评估了本文的方法里遗忘后模型的表现。其中,参照样本以随机选 取的方式从剩余样本中采集 3878 个。考虑到在新冠病变检测中漏诊率的重要性,本实 验的 1000 个遗忘样本都为阳性样本,从全部阳性样本中随机选择 1000 个。
准确率评估: 对于糖尿病眼底病变的检测,本文用准确率评估其模型性能。遗忘前, 原始目标模型的检测准确率达到 91%,使用本文的方法进行遗忘之后,目标模型的分 类准确率为 87%,精度变化在 5%以内。
成员推理攻击准确率评估: 使用成员推理攻击遗忘前的目标模型,得到 60.5%的成 员推理准确率。攻击重新训练的模型,得到 53.5%的成员推理准确率。使用本文的方法 进行遗忘后,攻击遗忘后的模型,得到 50.5%的成员推理准确率。对于遗忘前的目标模 型,成员推理攻击结果认为需遗忘的数据是其成员数据,而对于重新训练和使用本文 的方法得到的遗忘后的模型,攻击模型将其分类为非成员数据,攻击准确率降低。
后门攻击成功率评估: 使用后门方法攻击遗忘前的模型,得到的后门识别率为 90%。 在遗忘之后,得到的后门识别率为 20%,相当于五分类随机分类得到的准确率,而对 剩下数据集的分类准确率为 90%,说明带有后门的数据被遗忘,即完成了遗忘任务。
时间代价:如图4-12所示,当选定参照模型的参数k为0.1时,遗忘时间为842.60s。 当k取0.5时,遗忘时间为3112.88s。其他同理。
41
图 4-12 参照模型样本数对训练时间的影响
4.4本章小结
本章介绍了基于轻量级数据遗忘算法在医学领域实现的关联性和必要性,在covid- 19数据集、ChinaSet数据集、Combo数据集以及DR数据集上进行实验测试,验证了 本文的方法在医学领域的可行性。
42
第五章 总结与展望
5.1 总结
为了解决神经网络模型下的数据遗忘问题,本文通过深入研究现有的数据遗忘方 法,指出了这些方法存在的耗费大量时间和空间成本以及在应用场景上不具备普适性 等问题,并提出了一种轻量级的数据遗忘方法。本文提出的方法,基于遗忘前的模型, 利用模型成员数据划分训练得到不具有相关数据先验信息的参照模型。以参照模型为 标准,基于相关遗忘数据在每个模型上的后验分布进行相似度测量,以完成对目标模 型权重的微小扰动,使得校正后的目标模型对相关遗忘数据的后验分布不再具有其对 于目标模型的可识别性,以消除遗忘数据对目标模型的权重分布带来的影响。另外, 本文利用隐私保护中成员推理攻击技术可以推理出给定数据是否为目标模型成员数据 的特性,将成员推理攻击技术作用于对遗忘数据的推理阶段,以达到本文方法对于数 据遗忘的有效性验证。利用后门攻击技术可以推理出目标模型对后门信息记忆的特性, 本文将后门攻击技术用作评估本文方法在数据遗忘问题的有效性验证工具。通过评估 目标模型对后门信息的可识别性,判断目标模型对遗忘数据的记忆程度。
本文在一系列网络架构上评估了所提出的方法, 如多层感知器 MLP、CNN、 ResNet 以及超过 4 个不同的数据集,通过对一系列模型和数据集的广泛评估,从准确 率、遗忘时间等指标验证了方法的稳定性和简易性,利用隐私保护中成员推理攻击技 术以及后门攻击技术来验证本文方法在数据遗忘方面的有效性。另外,本文在涉及医 疗图像的新冠肺炎、病毒性肺炎以及糖尿病眼底检测的数据集上同时进行了相关实验, 验证了本文的方法对于医疗场景下的病患遗忘请求同样适用,可以对医疗模型提供者 高效处理用户遗忘数据的请求提供支持。
总的来说,本文从医疗场景下的深度学习隐私和安全问题为切入点,研究了神经 网络的数据遗忘问题,针对现有研究的脆弱性,提出了通用且高效的数据遗忘技术, 并在普通公开图像数据集上验证了其可行性。同时验证了本文的方法在医疗场景下的 适用性。
43
5.2展望
本论文针对机器学习的隐私和安全问题,基于数据遗忘概念进行了方法研究,并 实现了有效的遗忘方案。但机器学习隐私安全保护中依旧存在许多问题需要解决,基 于本论文提出的工作,今后可从以下几个方面进行研究:
(1) 非神经网络模型下的轻量级遗忘。目前而言,本文提出的方法仅适用于神经网络 模型下的数据遗忘,验证了本文方法的有效性和简易性。未来还需继续研究本文的方 法在非神经网络模型下的普适性。
(2) 非图像数据的数据遗忘。本文在一系列网络架构上评估了所提出的方法,通过 对一系列模型和图像数据集的广泛评估,从准确率、遗忘时间等指标进行稳定性和简 易性的评估,做到了不占用额外空间的轻量级计算,再利用隐私保护中成员推理攻击 技术以及后门攻击技术来验证本文方法的在高置信度验证数据遗忘方面的有效性。未 来还需在文本等相关数据集下继续研究,验证本文的方法是否仍然有效。
另外,本文的方法在隐私保护方面有进步意义,也可以应用于许多有趣的方向包括 快速调整模型的可训练参数,恶意擦除模型相关贡献,模型防御以及数据交易和共享。
44
参考文献
[1]Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 1175-1191.
[2]Tran N H, Bao W, Zomaya A, et al. Federated learning over wireless networks: Optimization model design and analysis[C]//IEEE INFOCOM 2019-IEEE conference on computer communications. IEEE, 2019: 1387-1395.
[3]Zhu L, Liu Z, Han S. Deep leakage from gradients[J]. Advances in neural information processing systems, 2019, 32.
[4]Peukert C, Bechtold S, Batikas M, et al. Regulatory spillovers and data governance: Evidence from the GDPR[J]. Marketing Science, 2022, 41(4): 746-768.
[5]盛小平, 唐筠杰. 我国个人信息权利与欧盟个人数据权利的比较分析: 基于《 个人信 息保护法》与 GDPR[J]. 图书情报工作, 2022, 66(6): 26.
[6]Guo C, Goldstein T, Hannun A, et al. Certified data removal from machine learning models[J]. arXiv preprint arXiv:1911.03030, 2019.
[7]Golatkar A, Achille A, Soatto S. Eternal sunshine of the spotless net: Selective forgetting in deep networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9304-9312.
[8]Koh P W, Liang P. Understanding black-box predictions via influence functions[C]//International conference on machine learning. 2017: 1885-1894.
[9]Marchant N G, Rubinstein B I P, Alfeld S. Hard to forget: Poisoning attacks on certified machine unlearning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(7): 7691-7700.
[10]Neel S, Roth A, Sharifi-Malvajerdi S. Descent-to-delete: Gradient-based methods for machine unlearning[C]//Algorithmic Learning Theory. 2021: 931-962.
[11]Bourtoule L, Chandrasekaran V, Choquette-Choo C A, et al. Machine unlearning[C]//2021 IEEE Symposium on Security and Privacy (SP). 2021: 141-159.
[12]Kearns M. Efficient noise-tolerant learning from statistical queries[J]. Journal of the ACM ,1998, 45(6): 983-1006.
[13]Cao Y, Yang J. Towards making systems forget with machine unlearning[C]//2015 IEEE symposium on security and privacy. 2015: 463-480.
[14]Bourtoule L, Chandrasekaran V, Choquette-Choo C A, et al. Machine unlearning[C]//2021
45
IEEE Symposium on Security and Privacy (SP). 2021: 141-159.
[15]Duan H, Li H, He G, et al. Decremental learning algorithms for nonlinear langrangian and least squares support vector machines[C]//Proceedings of the First International Symposium on Optimization and Systems Biology (OSB'07). 2007: 358-366.
[16]Tveit A, Hetland M L. Multicategory incremental proximal support vector classifiers[C]//: Proceedings of the 7th INternational Conference on Knowledge-Based Intelligent Information and Engineering Systems. 2003: 386-392.
[17]Tveit A, Hetland M L, Engum H. Incremental and decremental proximal support vector classification using decay coefficients[C]// Proceedings of the 5th International Conference on Data Warehousing and Knowledge Discovery. 2003: 422-429.
[18]Cauwenberghs G, Poggio T. Incremental and decremental support vector machine learning[J]. Advances in neural information processing systems, 2000, 13.
[19]Chen Y, Xiong J, Xu W, et al. A novel online incremental and decremental learning algorithm based on variable support vector machine[J]. Cluster Computing, 2019, 22: 7435-7445.
[20]Ginart A, Guan M, Valiant G, et al. Making ai forget you: Data deletion in machine learning[J]. Advances in neural information processing systems, 2019, 32.
[21]Chundawat V S, Tarun A K, Mandal M, et al. Can bad teaching induce forgetting? Unlearning in deep networks using an incompetent teacher[J]. arXiv preprint arXiv:2205.08096, 2022.
[22]Izzo Z, Smart M A, Chaudhuri K, et al. Approximate data deletion from machine learning models[C]//International Conference on Artificial Intelligence and Statistics. 2021: 20082016.
[23]Li Y, Wang C H, Cheng G. Online forgetting process for linear regression models[J]. arXiv preprint arXiv:2012.01668, 2020.
[24]Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Machine learning, 2006, 63: 3-42.
[25]Schelter S, Grafberger S, Dunning T. Hedgecut: Maintaining randomised trees for low- latency machine unlearning[C]//Proceedings of the 2021 International Conference on Management of Data. 2021: 1545-1557.
[26]Golatkar A, Achille A, Soatto S. Forgetting outside the box: Scrubbing deep networks of information accessible from input-output observations[C]//Proceedings of the 16th European Conference on Computer Vision. 2020: 383-398.
[27]Goyal A, Hassija V, Albuquerque V H C. Revisiting Machine Learning Training Process
46
for Enhanced Data Privacy[C]//2021 Thirteenth International Conference on Contemporary Computing (IC3-2021). 2021: 247-251.
[28]He Y, Meng G, Chen K, et al. Deepobliviate: a powerful charm for erasing data residual memory in deep neural networks[J]. arXiv preprint arXiv:2105.06209, 2021.
[29]Mehta R, Pal S, Singh V, et al. Deep unlearning via randomized conditionally independent hessians[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10422-10431.
[30]Cao Z, Wang J, Si S, et al. Machine Unlearning Method Based On Projection Residual[J]. arXiv preprint arXiv:2209.15276, 2022.
[31]Guo C, Goldstein T, Hannun A, et al. Certified data removal from machine learning models[J]. arXiv preprint arXiv:1911.03030, 2019.
[32]Sekhari A, Acharya J, Kamath G, et al. Remember what you want to forget: Algorithms for machine unlearning[J]. Advances in Neural Information Processing Systems, 2021, 34: 18075-18086.
[33]Zhang P F, Bai G, Huang Z, et al. Machine Unlearning for Image Retrieval: A Generative Scrubbing Approach[C]//Proceedings of the 30th ACM International Conference on Multimedia. 2022: 237-245.
[34]Mahadevan A, Mathioudakis M. Certifiable unlearning pipelines for logistic regression: An experimental study[J]. Machine Learning and Knowledge Extraction, 2022, 4(3): 591620.
[35]Aldaghri N, Mahdavifar H, Beirami A. Coded machine unlearning[J]. IEEE Access, 2021, 9: 88137-88150.
[36]Yu D, Zhang H, Chen W, et al. How does data augmentation affect privacy in machine learning?[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(12): 10746-10753.
[37]Zeng Y, Wang T, Chen S, et al. Learning to Refit for Convex Learning Problems[J]. arXiv preprint arXiv:2111.12545, 2021.
[38]Basu S, Pope P, Feizi S. Influence functions in deep learning are fragile[J]. arXiv preprint arXiv:2006.14651, 2020.
[39]Mahadevan A, Mathioudakis M. Certifiable machine unlearning for linear models[J]. arXiv preprint arXiv:2106.15093, 2021.
[40]Huang H, Ma X, Erfani S M, et al. Unlearnable examples: Making personal data unexploitable[J]. arXiv preprint arXiv:2101.04898, 2021.
[41]Shan S, Wenger E, Zhang J, et al. Fawkes: Protecting privacy against unauthorized deep
47
learning models[C]//Proceedings of the 29th USENIX Security Symposium. 2020.
[42]Liu G, Ma X, Yang Y, et al. FedEraser: Enabling efficient client-level data removal from federated learning models[C]//2021 IEEE/ACM 29th International Symposium on Quality of Service (IWQOS). 2021: 1-10.
[43]Liu Y, Ma Z, Liu X, et al. Learn to forget: Machine unlearning via neuron masking[J]. arXiv preprint arXiv:2003.10933, 2020.
[44]Wang J, Guo S, Xie X, et al. Federated unlearning via class-discriminative pruning[C]//Proceedings of the ACM Web Conference. 2022: 622-632.
[45]Liu Y, Xu L, Yuan X, et al. The right to be forgotten in federated learning: An efficient realization with rapid retraining[C]//IEEE INFOCOM 2022-IEEE Conference on Computer Communications. 2022: 1749-1758.
[46]Wu C, Zhu S, Mitra P. Federated unlearning with knowledge distillation[J]. arXiv preprint arXiv:2201.09441, 2022.
[47]Berahas A S, Nocedal J, Takac M. A multi-batch L-BFGS method for machine learning[J]. Advances in Neural Information Processing Systems, 2016, 29.
[48]Bollapragada R, Nocedal J, Mudigere D, et al. A progressive batching L-BFGS method for machine learning[C]//International Conference on Machine Learning. PMLR, 2018: 620629.
[49]Tarun A K, Chundawat V S, Mandal M, et al. Fast yet effective machine unlearning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023: 1—10.
[50]Cao Z, Wang J, Si S, et al. Machine Unlearning Method Based On Projection Residual[J]. arXiv preprint arXiv:2209.15276, 2022.
[51]Wu G, Hashemi M, Srinivasa C. Puma: Performance unchanged model augmentation for training data removal[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(8): 8675-8682.
[52]Chundawat V S, Tarun A K, Mandal M, et al. Zero-shot machine unlearning[J]. IEEE Transactions on Information Forensics and Security, 2023.
[53]Graves L, Nagisetty V, Ganesh V. Amnesiac machine learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(13): 11516-11524.
[54]Wu Y, Dobriban E, Davidson S. Deltagrad: Rapid retraining of machine learning models[C]//International Conference on Machine Learning. 2020: 10355-10366.
[55]Wu Y, Tannen V, Davidson S B. Priu: A provenance-based approach for incrementally updating regression models[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 447-462.
48
[56]Nguyen Q P, Low B K H, Jaillet P. Variational bayesian unlearning[J]. Advances in Neural Information Processing Systems, 2020, 33: 16025-16036.
[57]Thudi A, Deza G, Chandrasekaran V, et al. Unrolling sgd: Understanding factors influencing machine unlearning[C]//2022 IEEE 7th European Symposium on Security and Privacy (EuroS&P). IEEE, 2022: 303-319.
[58]Thudi A, Jia H, Shumailov I, et al. On the necessity of auditable algorithmic definitions for machine unlearning[C]//31st USENIX Security Symposium. 2022: 4007-4022.
[59]Shokri R, Stronati M, Song C, et al. Membership inference attacks against machine learning models[C]//2017 IEEE symposium on security and privacy (SP). 2017: 3-18.
[60]Nasr M, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning[C]//Proceedings of the 2019 IEEE Symposium on Security and Privacy (SP). 2018: 1-15.
[61]Liu Y, Ma S, Aafer Y, et al. Trojaning attack on neural networks[C]//25th Annual Network And Distributed System Security Symposium. Internet Soc, 2018.
[62]C hen X, Liu C, Li B, et al. Targeted backdoor attacks on deep learning systems using data poisoning[J]. arXiv preprint arXiv:1712.05526, 2017.
[63]Salem A, Wen R, Backes M, et al. Dynamic backdoor attacks against machine learning models[C]//2022 IEEE 7th European Symposium on Security and Privacy (EuroS&P). IEEE, 2022: 703-718.
[64]Yao Y, Li H, Zheng H, et al. Latent backdoor attacks on deep neural networks[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 2041-2055.
[65]Saha A, Subramanya A, Pirsiavash H. Hidden trigger backdoor attacks[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 11957-11965.
[66]Turner A, Tsipras D, Madry A. Label-consistent backdoor attacks[J]. arXiv preprint arXiv:1912.02771, 2019.
[67]Liu Y, Lee W C, Tao G, et al. Abs: Scanning neural networks for back-doors by artificial brain stimulation[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 1265-1282.
[68]Veldanda A K, Liu K, Tan B, et al. Nnoculation: broad spectrum and targeted treatment of backdoored dnns[J]. arXiv preprint arXiv:2002.08313, 2020.
[69]Song C, Shmatikov V. Auditing data provenance in text-generation
models[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 196-206.
49
[70]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[71]Xiao H, Rasul K, Vollgraf R. Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms[J]. arXiv preprint arXiv:1708.07747, 2017.
[72]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.