数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(1)

引用

Ahmed Salem, Apratim Bhattacharyya, MichAEl Backes, Mario Fritz, Yang Zhang,“Updates-Leak: Data Set Inference and Reconstruction Attacks in Online Learning” CoRR, vol.abs/1904.01067, 2019.

摘要

机器学习(ML)在过去的十年中取得迅速的发展,推动这种发展的主要因素是前所未有的大规模数据。由于数据生成是一个连续的过程,这将导致 ML 模型所有者在在线学习场景中经常使用新收集的数据来更新他们的模型。因此,如果在两个不同的时间点使用相同的数据样本集查询一个 ML 模型,它将提供不同的结果。本文调查了更新前后黑盒 ML 模型输出的变化是否会泄漏用于执行更新的数据集的信息,即更新集。构成了针对黑盒 ML 模型的新攻击面,此类信息泄漏可能会损害 ML 模型所有者的知识产权和数据隐私。我们提出了遵循编码器-解码器公式的四种攻击,允许推断更新集的不同信息。最先进的深度学习技术促进我们的新攻击。还提出一种基于生成对抗网络(GAN)的混合生成模型(CBM-GAN),但包括允许重建准确样本的重建损失。实验表明该攻击具有较强的性能。

1、引言

机器学习(ML)在过去的十年中取得迅速发展。驱动当前 ML 开发的一个关键因素是前所未有的大规模数据。因此,收集高质量的数据对于构建高级 ML 模型至关重要。数据收集是一个连续的过程,它反过来也将 ML 模型训练转化为一个连续的过程:训练 ML 模型不止一次,而是需要使用新收集的数据继续更新模型。从零开始的训练通常是通过在线学习实现的,用于执行模型更新的数据集称为更新集。本文主要研究问题是:用同一个数据样本集查询一个 ML 模型的两个版本的不同输出是否会泄露相应的更新集的信息?这构成了对机器学习模型的一个新的攻击面。更新集的信息泄露可能会损害模型所有者的知识产权和数据隐私。

我们集中讨论最常见的 ML 应用分类。最困难的攻击设置是以黑箱 ML 模型为目标,对手无法访问目标模型的参数,只能用数据样本查询模型并得到相应的预测结果,即分类后验。最后只考虑包含多达 100 个新收集的数据样本的更新集,是迈向真实世界的一步。在此基础上提出四种不同的攻击,并将其分为两类:单样本攻击类和多样本攻击类。单样本攻击类中的两种攻击集中于目标 ML 模型用单个数据样本更新时的简化情况。四次攻击中,有两次(每种攻击类别一次)的目标是重建更新集,这是在这个方向上的第一次尝试。与以往的许多攻击相比,数据集重建攻击会导致更严重的后果。实验表明,确实可以利用相同 ML 模型的两个不同版本的输出差异来推断关于更新集的信息。贡献如下:

一般攻击构造。四种攻击遵循一个通用结构,可以将其表述为编码器解码器风格。由多层感知器(MLP)实现的编码器将目标 ML 模型输出的差异,即后验差异作为其输入,而解码器针对不同的攻击产生不同类型的更新集信息。为获得后验差异,随机选择一组固定的数据样本,即探测集,探测目标模型的两个不同版本。然后计算两组后验之间的差异,作为攻击编码器的输入。

单样本攻击类。单样本攻击类包含两种攻击:单样本标签推理攻击和单样本重构攻击。第一次攻击预测用于更新目标模型的单个样本的标签。通过两层 MLP 实现相应的攻击解码器。首先在不同的数据样本集上训练 AE。然后将 AE 的解码器作为其样本重建器转移到我们的攻击模型中。实验结果表明,对于 MNIST 数据集可以重建单个样本的性能增益(相对于均方误差)为 22%,对于 CIFAR-10 数据集为 107.1%,对于 Insta-NY 为 114.7%数据集,随机选择与更新样本的相同标签相关联的样本。

多样本攻击类。多样本攻击类包括多样本标签分布估计攻击和多样本重构攻击。多样本标签分布估计攻击估计更新集的数据样本的标签分布。是对单样本攻击类中的标签推理攻击的一种推广。采用空背散度(KL 散度)作为模型的损失函数。对于 CIFAR-10 数据集,当更新集的基数为 100 时,我们的攻击模型达到了 0.00384 KL 散度,比随机猜测高出 2.5 倍。预测最常见标签的准确率为 0.29,几乎是随机猜测的 3 倍。

最后一种攻击,即多样本重建攻击,目的是生成更新集中的所有样本。此攻击的解码器由两个组件组装。第一个是学习更新集样本的数据分布。提出一种新的混合生成模型,即 CBM-GAN,引入了“最佳匹配”损失,确保更新集中的每个样本得到准确重构。解码器的第二个组件依赖于机器学习聚类,将 CBM-GAN 生成的数据样本分组为聚类,并将每个聚类的中心样本作为最终的重建样本。评估表明,当在所有 MNIST、CIFAR-10 和 Insta-NY 数据集上重建更新集时优于所有基线。

2、准备工作

2.1 在线学习

本文重点关注最常见的 ML 任务分类。ML 分类器 M 本质上是一个将数据样本 x∈X 映射到后验概率 y∈Y 的函数,即 M:X→Y。在这里,y∈Y 是一个向量,每个条目都表示 x 被分类为某个类或隶属于某个标签的概率。y 中所有值之和为 1。为训练一个 ML 模型,我们需要一组数据样本,即训练集。训练过程由某种优化算法,如 ADAM,遵循预定义的损失函数。训练过的 ML 模型 M 可以用 Dupdate 表示的更新集进行更新。根据当前模型的参数,使用相同的优化算法对更新集对模型进行进一步的更新。更正式地说,给定一个更新集 Dudate 和一个训练过的 ML 模型 M,更新过程的更新可以定义为 Fupdate:Dupdate,M→M’,其中 M’是 M 的更新版本。

2.2威胁模型

对于四次攻击,都考虑一个拥有访问目标模型进行黑盒访问的对手。对手只能用一组数据样本(即她的探测集)来查询模型,并获得相应的后验。假设对手有一个与目标模型的训练集来自相同分布的局部数据集,认为对手能够在模型体系结构方面建立与目标 ML 模型相同的 ML 模型。这可以通过执行模型超参数窃取攻击来实现。对手需要这两个信息来建立一个影子模型,这个影子模型模仿目标模型的行为来获取数据来训练她的攻击模型(见第 3 节)。假设目标 ML 模型只使用新数据进行更新,即更新集和训练集是不相交的。在第 6 节中展示两个假设,即对手对目标模型架构的了解以及她拥有与目标模型训练集相同分布的数据集。

2.3数据集描述

使用三个数据集进行实验评估:MNIST、CIFAR-10 和 Insta-NY。MNIST 和 CIFAR-10 是用于各种 ML 安全和隐私任务的基准数据集。MNIST 是一个 10 类图像数据集,由 70000 张 28×28 灰度图像组成。每张图片中间都有一个手写的数字,平均分布在 10 个类。CIFAR-10 包含 60000 张 32×32 彩色图片,也是一个 10 类均衡数据集。Insta-NY 包含了 Instagram 用户在纽约的位置签到数据样本。每次签到都表示用户在特定时间访问特定地点。每个地点隶属于一个类别,共八个不同类别。Insta-NY 的 ML 任务是预测每个地点的类别,使用每周每个小时在每个地点发生的签到数量作为该地点的特征向量。进一步过滤出少于 50 个签入的位置,共有 19,215 个数据集的位置。

3、通用攻击管道

我们的总攻击管道包含三个阶段。在第一阶段,对手产生攻击输入,即后验差分。在第二阶段,编码器将后差转换为潜在向量。最后,解码器对潜在向量进行解码,针对不同的攻击产生不同的更新集信息。图 1 提供了攻击管道的示意图。本节将对攻击管道的每个阶段进行一般性介绍,最后提出数据获取策略来训练攻击模型。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(2)

图 1:通用攻击管道的示意图。

3.1攻击输入

目标是调查在使用同一组数据样本查询时从模型的两个版本的后验差异中泄漏的信息。 为了创建这种后验差异,对手首先需要选择一组数据样本作为她的探测集,用 Dprobe 表示。在这项工作中,对手选择一个随机数据样本的样本来形成 Dprobe。接下来,对手使用 Dprobe 中的所有样本查询目标 ML 模型 M,并将接收到的输出连接起来形成向量 yprobe。然后,她用 Dprobe 中的样本探测更新后的模型 M’并相应地创建一个向量 y’probe。 最后,她将后验差(用 δ 表示)设置为两个输出的差:δ=yprobe—y’probe

请注意,δ 的维数是 Dprobe 的基数和目标数据集的类数的乘积。对于本文,CIFAR-10 和 MNIST 都是 10 类数据集,而 Insta-NY 则是 8 类数据集。由于我们的探测集总是包含 100 个数据样本,这表明 CIFAR-10 和 MNIST 的 δ 维度为 1000,Insta-NY 的 δ 维度为 800。

3.2编码器设计

所有攻击都共享相同编码器结构,用多层感知器对其进行建模。编码器内部的层数取决于 δ 的尺寸:较长的 δ 需要编码器中更多层。由于我们的 δ 是 MNIST 和 CIFAR-10 数据集的 1000 维向量,以及 Insta-NY 数据集的 800 维向量,因此在编码器中使用两个完全连接的层。第一层将 δ 转换为 128 维向量,第二层进一步将尺寸降低为 64。

3.3解码器结构

四种攻击旨在推断从样本标签到更新集本身的 Dupdate 的不同信息。因此,我们用不同的技术构造不同的解码器来对付不同的攻击。解码器详细信息将在下面章节中介绍。

3.4影子模型

编码器和解码器需要在监督的方式下共同培训,这说明模型训练需要真实数据。由于最小假设,对手无法从目标模型中得到真实情况。为了解决这个问题,我们依赖于前面的工作中的影子模型。影子模型被设计来模拟目标模型。通过控制影子模型的训练过程,对手可以获得训练攻击模型所需的真实数据。

对手知道(1)目标模型的体系结构,(2)来自与目标数据集相同分布的数据集。为建立影子模型 Mshadow,对手首先建立一个与目标模型结构相同的 ML 模型。然后从自己的局部数据集中获取一个影子数据集 Dshadow(其余用作 Dprobe),并将其分为两个部分:影子训练集 Dtrainshadow 和影子更新集 Dupdateshadow。对手利用 m 个影子更新集并行更新影子模型 Mshadow,生成 m 个影子更新模型 M’1shadow···M’mshadow。最后利用探测集 Dprobe 探测影子并更新影子模型,计算影子后验差。在所有的实验中把 m 设为 10000。此外为目标模型创建了 1000 个更新的模型,这意味着每个攻击模型的测试集包含 1000 个样本。

4、单样本攻击

本节将集中讨论使用单个示例更新 ML 模型的情况。这是一个简化的攻击场景,目的是检查使用后验差异来推断关于更新集的信息的可能性。首先引入单样本标签推理攻击,然后提出单样本重构攻击。

4.1单样本标签推理攻击

攻击定义。我们的单样本标签推理攻击以后验差值作为输入,并输出单个更新样本的标签。更正式地说,给定一个后验差值 δ,我们的单样本标签推理攻击定义如下:AL1:δ→e。其中,e 是一个向量,每个条目表示与某个标签关联的更新样本的概率。

方法学。综上所述,攻击模型的一般构造包括一个基于 MLP 的编码器,它以后验差分作为其输入,并输出一个潜在向量 µ。对于这种攻击,对手还用一个 MLP 构建解码器,该 MLP 由一个全连接层和一个软大层组装,将潜在向量转换为相应的更新样本的标签。

实验设置。使用 MNIST、CIFAR-10 和 Insta-NY 数据集评估单样本标签推理攻击的性能。首先将每个数据集分成三个不相交的数据集:目标数据集 Dtarget、影子数据集 Dshadow 和探测数据集 Dprobe。如前所述,Dprobe 包含 100 个数据样本。然后将 Dshadow 分割为 Dtrainshadow 和 D updateshadow,训练并更新影子模型(见第 3 节)。同样的过程用 Dtarget 训练和更新目标模型。我们的攻击模型的训练集和测试集分别包含 10,000 和 1,000 个样本。使用卷积神经网络(CNN)为 CIFAR-10 和 MNIST 数据集构建影子和目标模型,并为 Insta-NY 数据集建立多层感知器(MLP)。CIFAR-10 模型由两个卷积层、一个最大池化层、三个完全连接的层和一个软最大层组成。MNIST 模型由两个卷积层、两个完全连接的层和一个软最大层组成。最后,Insta-NY 模型由三个全连接层和一个 softmax 层组成。

结果。图 2 描述了实验结果。由此可见,ALI 在 Insta-NY 数据集上的精度为 0.97,在 CIFAR-10 数据集上的精度为 0.96,在 MNIST 数据集上的准确率为 0.68。此外,我们的攻击明显优于基线模型,即随机模型,它只是简单地猜测了所有可能的标签上的一个标签。由于 CIFAR-10 和 MNIST 都包含 10 个平衡类,基线模型的结果约为 10%。对于 Insta-NY 数据集,由于它不是平衡的,我们为每个样本随机抽取一个标签,以计算基线,结果准确率约为 29%。评估表明一个 ML 模型的两个版本的不同输出确实泄露了相应的更新集的信息。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(3)

图 2:单样本标签推理攻击 (ALI) 在 MNIST、CIFAR-10 和 InstaNY 数据集上的性能以及基线模型。 采用准确度作为评价指标。

4.2 单样本重建攻击

攻击定义。单样本重建攻击需要进一步构建用于更新模型的数据样本。形式上,给定一个后验差值 δ,单样本重建攻击用 ASSR 表示,定义为: ASSR : δ→ xupdate。其中 xupdute 表示用于更新模型的示例(Dupdute={xupdute})。

方法学。重建数据样本比预测样本的标签要复杂得多。为解决词问题,需要一个能够在复杂空间中生成数据样本的 ML 模型。为此,我们依赖于自动编码器(AE)。自动编码器与编码器和解码器组装。与我们的攻击不同,AE 的目标是为一个数据样本学习一个有效的编码:它的编码器将一个样本编码成一个潜在向量,解码器试图解码潜在向量来重建相同的样本。这表明 AE 的解码器本身是一个数据示例重构构造器。对于我们的攻击,首先训练一个 AE,然后将 AE 的解码器转移到攻击模型中,作为攻击的解码器的初始化。图 3 提供了攻击方法的概述。在自动编码器被训练后,对手会使用其解码器,并将其附加到她的攻击模型的编码器上。为了建立链接,对手在其编码器中添加了一个额外的全连接层,它将潜在向量 µ 的维度转换为与 µAE 相同的维度。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(4)

图 3:单样本重建攻击方法(ASSR)。

实验装置。 除了评估指标外,我们使用与之前攻击相同的实验设置(4.1 节)。采用 MSE 来衡量我们攻击的性能而不是准确性,构建 Label-random 和 Random 两个基线模型,这两个基线模型都从对手的影子数据集中随机抽取数据样本。不同之处在于,Label-random 基线从与目标更新样本相同的类中选取一个样本,而 Random 基线从对手的整个影子数据集中抽取一个随机数据样本。Label-random 基线可以通过首先执行单样本标签推理攻击来学习数据样本的标签,然后选择一个隶属于相同标签的随机样本来实现。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(5)

图 4:单样本重建攻击(ASSR)以及自动编码器和两个基线模型的性能更好。采用均方误差作为评价指标。

结果。单样本重建攻击取得了很好的性能,如图 4 所示,我们对 MNIST 数据集的攻击比随机基线强出 36%,更重要的是,比实验室随机基线强出 22%。同样地,对于 CIFAR-10 和 Insta-NY 数据集,我们的攻击达到了 MSE0.014 和 0.68,显著优于两个基线模型。其次比较我们的攻击的性能与自动编码器的结果进行样本重建。AE 以原始数据样本作为输入并输出重构的数据样本,因此被认为是一个预言机,因为对手无法访问原始更新样本。从图 4 可以看出,MNIST、CIFAR-10 和 Insta-NY 数据集分别达到 0.042、0.0043 和 0.51MSE,这确实优于我们的攻击。然而,我们的攻击仍然具有类似的性能。最后,图 5 可视化在攻击 MNIST 时看到的一些随机采样的重建图像。第一行描述用于更新模型的原始图像,第二行显示攻击的结果。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(6)

图 5:从 MNIST 数据集上的单样本重建攻击(ASSR)中生成的一些样本的可视化。

5、多样本攻击

5.1多样本标签分布估计攻击

攻击定义。在多标签攻击类中的第一次攻击旨在估计更新集样本的标签分布,可以被认为是单样本攻击类中标签推理攻击的泛化。攻击被定义为: ALDE:δ→ q。其中,q 作为一个向量,表示更新集中样本在所有类上的标签分布。

方法学。对手使用与第 3 节所述相同的编码器结构和与标签推理攻击相同的解码器结构(第 4.1 节)。由于标签分布估计攻击估计了一个概率向量 q,而不是执行分类,我们使用 Kullback-Leibler 散度(KL-散度)作为我们的目标函数。为训练攻击模型 ALDE,对手首先生成训练数据,然后以后验差 δ1shadow ···δmshadow 作为输入,将其对应更新集的归一化标签分布作为训练 ALDE 输出。

实验设置。我们使用更新的基数集 10 和 100 来评估标签分布估计攻击。对于两种不同的基数,构建该方法中所述的攻击模型。影子模型和目标模型的每个更新集中的所有数据样本都被统一采样,因此攻击模型对应于一个更新集的每个样本都具有与原始数据集相同的标签分布,更新模型批处理大小为 64。对于评估指标,计算每个测试样本的 KL 散度(对应于目标模型上的一个更新集),并报告所有测试样本的平均结果(总共 1000 个)。此外,还测量在更新集中的样本上预测最频繁的标签的准确性,随机抽样一个与更新集大小相同的数据集,并使用其样本的标签分布作为基线。

结果。图 6 中报告了标签分布估计攻击的结果,ALDE 在所有数据集上的性能都明显优于随机基线。对于在 CIFAR-10 数据集上有 100 个数据样本的更新集,我们的攻击分别比随机基线的精度和 KL 散度高 3 倍和 2.5 倍。对于 MNIST 和 Insta-NY 数据集,我们的攻击准确率分别提高了 1.5 倍和 4.8 倍,KL 散度分别提高了 2 倍和 7.9 倍。此外,对于大小为 10 的更新集,ALDE 比随机基线实现了类似的改进。首先用 100 个样本更新影子模型,同时用 10 个样本更新目标模型。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(7)

图 6:多样本标签分布估计攻击(ALDE)以及基线模型和转移攻击的性能。

5.2多样本重建攻击

攻击定义。最后的攻击为多样本重建攻击,旨在重建更新集。其可以看作是单例重构攻击的一种推广,也是朝着重建黑盒 ML 模型训练集的目标迈出的一步。攻击定义如下: AMSR : δ→Dupdate。

方法学。当更新集的大小从一个增加到多个时,重建更新集的任务的复杂性显著增加。单样本重建攻击(第 4.2 节)使用 AE 来重建单个样本。直接预测一组例子是一项非常具有挑战性的任务。因此,我们依赖于生成模型,生成多个样本。

实验设置。我们评估对大小为 100 的更新集的多样本重建攻击,并使用 CBM-GAN 为每个更新集的重建生成 20,000 个样本。在更新和重建的数据样本之间使用 MSE 来衡量多样本重建攻击的性能。构建两个基线,即影子聚类和标签平均。对对手的影子数据集执行 K-means 聚类,将对手的影子数据集聚类为 100 个聚类,并将离每个聚类的质心最近的样本作为一个重建样本。计算更新集中的每个样本与在对手的影子数据集中具有相同标签的图像的平均值之间的 MSE。

结果。在图 8 中,我们首先在 CIFAR-10 数据集上展示了我们攻击的中间结果的一些可视化,即聚类前 CBM-GAN 的输出。对于更新集中的每个随机采样图像,我们显示了与 CBM-GAN 生成的 MSE 相关的 5 个最近的重建图像。正如我们所见,我们的攻击模型试图生成与原始图像具有相似特征的图像。例如,图 8b 中飞机图像的 5 个重建图像均显示蓝色背景和飞机本身的模糊版本。从图 8a 中的船图像、图 8c 中的汽车图像和图 8d 中的船图像可以观察到类似的结果。同样有趣的是,CBM-GAN 为图 8b 中的两个不同的马图像提供了不同的样本。由于 CIFAR-10 数据集的复杂性以及我们对手的弱假设,即对黑盒 ML 模型的访问,结果的模糊性是意料之中的。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(8)

图 8:在 CIFAR-10 数据集上聚类之前,从多样本重建攻击(AMSR)中生成的一些样本的可视化。

我们的攻击在 CIFAR-10、MNIST 和 Insta-NY 数据集上的表现都优于两个基线模型(Shadow-clustering 的性能提高了 20%、22%和 25%,性能提高了 60.1%、5.5%和 14%分别为标签平均)。这些结果表明,我们的多样本重建攻击提供了一个比从对手的数据集计算平均值更有用的输出。具体来说,我们的攻击在 CIFAR-10 数据集上 MSE 为 0.036,在 MNIST 数据集上 MSE 为 0.051,在 Insta-NY 数据集上 MSE 为 0.64。正如预期的那样,我们最后一次攻击的 MSE 高于一对一的匹配。

6、讨论

放宽攻击者模型假设。我们的威胁模型有两个主要假设:目标和影子数据集的数据分布相同,目标和影子模型的结构相同。通过提出数据可转移性攻击来放松前者,而通过模型可转移性攻击来放松后者。

数据可变性。使用一个来自与目标数据集不同分布的数据集来局部训练和更新影子模型。实验中使用 Insta-NY 作为目标数据集,并使用 Insta-LA 作为影子数据集。

表 1:数据可转移性攻击的评估。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(9)

表 1 描述了评价结果。数据可传输性攻击的性能下降;然而,它们仍然明显优于相应的基线模型。例如,多样本重建攻击的性能下降了 14%,但仍然比基线好 10%。此外,多样本标签分布攻击的准确率(KL-divergence)仅下降了 6.8%(18.9%)和 0%(63%),仍然明显优于基线(见图 6)6.5x(2x))和 4.6x (4.8x)分别用于更新 10 和 100 的集合大小。

模型可转移性。现在我们放松攻击者对目标模型架构的了解,即我们对影子模型和目标模型使用不同的架构。在我们在 Insta-NY 上的实验中,我们对目标模型使用了之前在 4.1 节中提到的相同架构,并删除了一个隐藏层,并将其他隐藏层中神经元数量的一半用于影子模型。对于所有攻击,模型可迁移性攻击的性能下降仅不到 2%,这表明攻击对模型架构中的此类变化具有鲁棒性。

探测集基数的影响。当探测集基数为 10、100、1,000 或 10,000 时,我们评估了我们对 CIFAR-10 的攻击性能。由于我们的编码器的输入大小依赖于探测集的基数,因此我们将相应地调整其输入层的大小。

目标模型超参数的影响。我们现在评估我们对目标模型的两个超参数的攻击性能。

更新前目标模型的训练时期。使用 MNIST 数据集评估多样本标签分布估计攻击对训练 10、20 和 50 个时期的目标模型的性能。实验表明,不同模型的攻击性能差异小于 2%。这是预期的,因为在训练过程中梯度不是单调递减的。

目标模型的更新时期。使用 Insta-NY 数据集训练第 5.1 节中介绍的目标和影子模型,但我们使用不同的时期数更新模型。使用 2 到 10 个 epoch 更新模型,并评估多样本标签分布估计攻击对更新模型的性能。

数据挖掘灰色关联算法(在线学习中的数据集推理和重建攻击)(10)

图 11:多样本标签分布估计攻击 (ALDE) 的性能,用于更新目标模型的不同时期数。

在图 11 中报告实验结果。 正如预期的那样,多样本标签分布估计攻击的性能随着用于更新模型的时期数的增加而提高。

攻击的局限性。对于所有的攻击,设有一个简化的设置,其中,目标模型只在新数据上更新。此外还对最大基数为 100 的更新集进行攻击。

7、结论

每秒钟生成的大规模数据将 ML 模型训练变成一个连续的过程。因此,在两个不同的时间点,使用相同的数据样本集查询的机器学习模型将提供不同的结果。本文研究了这些不同的模型输出是否可以为对手构成一个新的攻击面来推断用于执行模型更新的数据集的信息。提出四种不同的攻击,都遵循一般的编码器-解码器结构。编码器对目标模型在更新前后输出的差异进行编码,解码器生成关于更新集的不同类型的信息。

我们首先探索一个简化案例,当一个 ML 模型只更新一个数据样本。对这个设置提出两种不同的攻击。第一次攻击表明可以有效地推断出单个更新样本的标签。第二次攻击利用自动编码器的解码器作为攻击模型的预训练解码器进行单样本重建。然后将攻击推广到更新集包含多个样本的情况。我们在 KL 散度损失之后训练的多样本标签分布估计攻击能够有效地推断更新集数据样本的标签分布。对于多样本重建攻击,提出一种新的混合生成模型,即 CBM-GAN,它在其目标函数中使用了“最佳匹配”损失。“最佳匹配”损失指示 CBM-GAN 的生成器重建更新集中的每个样本。 定量和定性结果表明我们的攻击取得了有希望的性能。

致谢

本文由南京大学软件学院 2021 级硕士石孟雨翻译转述。

,