神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(1)

引用

Fuxun Yu, Zhuwei Qin, Chenchen Liu, Liang Zhao, Yanzhi Wang and Xiang Chen, "Interpreting and evaluating neural network robustness", 2019.

摘要

最近,对抗性欺骗成为对深度神经网络的最大威胁之一。然而,与对各种对抗性攻击和防御的新设计的广泛研究相比,神经网络的内在鲁棒性仍然缺乏深入研究。这项工作旨在通过损失可视化定性地解释对抗性攻击和防御机制,并建立一个量化指标来评估神经网络模型的内在鲁棒性。所提出的稳健性度量确定了给定域中模型预测发散度的上限,从而表明模型是否可以保持稳定的预测。通过大量实验,我们的度量证明了优于基于传统对抗性测试准确性的稳健性估计的几个优点:(1)它为具有不同结构和参数尺度的模型提供了统一的评估; (2) 它优于传统的基于准确度的稳健性估计,并提供了对不同测试设置不变的更可靠的评估; (3)可以快速生成,无需相当大的测试成本。

1、引言

在过去的几年中,神经网络(NNs)在各个领域都取得了卓越的成功,如计算机视觉、语音识别、自主系统等。然而,最近出现的对抗性攻击大大挑战了神经网络应用的安全性:通过向测试输入注入难以察觉的噪声,神经网络的预测结果可以任意操作。到目前为止,新攻击的新兴速度、有效性和效率总是导致防御解决方案的早期原因,并且对抗性漏洞的关键因素仍不清楚,这使得神经网络鲁棒性研究进入了一个恶性循环。

在本研究中,我们旨在定性地解释神经网络模型的对抗性脆弱性和鲁棒性,并建立模型内在鲁棒性评价的定量度量。为了说明鲁棒性,采用在模型收敛研究中广泛使用的损耗可视化技术。当对抗性攻击利用输入中的扰动时,我们将损失可视化从原始参数空间切换到输入空间,并说明神经网络是如何被对抗性扰动欺骗。在此基础上设计一个鲁棒性评价指标来衡量神经网络在约束扰动范围内的最大预测分歧。我们进一步优化度量评价过程,以保持其在外部因素方差下的一致性,如模型重参数化。

具体来说,我们有以下贡献:

l 我们通过定义和可视化一个称为决策表面的新损失表面来解释对抗性的脆弱性和鲁棒性。与基于交叉熵的损失表面相比,决策面包含隐式决策边界,具有更好的可视化效果;

l 我们证明了对抗性的欺骗是由神经网络的邻域不拟合引起的。我们的可视化表明,对抗性的例子是自然存在的点,位于输入的附近。但神经网络未能对其进行分类,导致了对立的实例现象;

l 我们提出了一个鲁棒性评估度量。结合一种新的归一化方法,该度量无论攻击和防御如何,都能不变地反映神经网络的内在鲁棒性;

l 我们表明,在某些情况下,例如防御性蒸馏下,常用的 PGD 对抗性测试精度可以给出不可靠的鲁棒性估计,而我们的度量可以正确地反映模型的鲁棒性。

广泛的评估结果表明,我们定义的鲁棒性度量可以很好地表明跨不同数据集、不同架构、多次对抗性攻击和不同防御方法的模型内在鲁棒性。

2、背景和相关工作

2.1对抗性攻击和鲁棒性

论文“Intriguing properties of neural networks”首次引入对抗性示例,揭示神经网络对对抗性噪声的脆弱性,并证明人工认知与人类视觉感知之间的差距。此后提出各种对抗性攻击,例如 L-BFGS 攻击、FGSM 攻击、C&W 攻击、黑盒攻击等。

在对抗性攻击出现的推动下,相应的防御技术也出现了,包括对抗性训练、防御蒸馏、梯度正则化、对抗性等。其中,MinMax 鲁棒性优被认为是最有效的防御之一,通过将最坏情况的对抗性示例整合到模型训练中来提高模型准确性。

目前,利用对抗性攻击下的测试精度来评估模型的鲁棒性。但是,它受到攻击规范的高度影响,不能全面反映模型内在特性的实际鲁棒性。例如,评估模型鲁棒性的一种常用方法是采用投影梯度下降(PGD)攻击下的测试精度作为估计。我们实验表明,这种鲁棒性估计不可靠:一个具有高 PGD 测试精度的模型可以很容易地被其他攻击所破坏。在这项工作中,我们的目标是提供一个内在的鲁棒性属性评估度量,不变规格的模型,攻击,和防御。

2.2神经网络损失可视化

神经网络损失可视化由于其直观的解释而被认为是神经网络分析中最有用的方法之一。利用损失可视化来分析模型的训练和收敛。后来 Keskar 等人进一步揭示了平坦局部极小值是参数空间模型泛化的关键。然而,Dinh 等人发现了模型重新参数化问题,即模型参数缩放可能会扭曲几何属性。

我们采用损失可视化的概念来分析神经网络在对抗性扰动下的损失行为。同时,还将提供一种归一化方法来解决模型重新参数化问题并推导出缩放不变鲁棒性度量。

2.3可视化空间的选择

除了解决重新参数化问题外,损失可视化还需要针对对抗性扰动分析进一步定制。由于损失可视化主要评估神经网络的泛化能力,因此在以前的工作中,它侧重于参数空间来分析模型训练和收敛。然而,这样的分析重点并不适合对抗性攻击和防御,其行动范围在输入空间。另一方面,输入空间中的损失函数测量网络在输入扰动下的损失变化。自然显示对抗性扰动的影响,适合研究对抗性扰动的鲁棒性。

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(2)

图 1:ResNet 在(a)参数空间(b)输入空间中的损失面。损失表面在输入空间中表现出显着的非平滑变化,表明其对噪声的高度敏感性。

图 1 展示一个 ResNet 模型在参数空间和输入空间中可视化损失面的两个例子,说明两个可视化空间之间的差异。尽管参数空间中的损失面可以显示出平坦的最小值,但其在输入空间中的显着非平滑变化表明损失对输入扰动高度敏感,这可能是对抗性漏洞。在这项工作中,我们将采用输入空间作为鲁棒性解释的默认可视化设置。

3、对抗性鲁棒性解释

3.1神经网络损耗可视化

损失可视化基础:

神经网络的预测可以通过其损失函数 F(θ,x)来评估,其中 θ 是模型参数集(权重和偏差),x 是输入。由于输入 x 通常构造在高维空间中,因此不可能对损失表面进行直接可视化分析。为了解决这个问题,损失可视化将高维损失表面投影到一个低维空间中来将其可视化。一个二维超平面)。在投影过程中,选择两个向量 α 和 β 并标准化为 x-y 超平面的基向量。给定起始输入点 o,其周围的点可以进行插值,相应的损失值可计算为:

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(3)

其中,函数 F 中的原始点 o 表示原始图像,α 和 β 可以视为添加到图像中的单位扰动,坐标(i、j)表示扰动强度。在损失可视化中,点坐标也表示其沿 α 方向和 β 方向的发散度。在采样足够的点损失值后,可以将高维输入函数 F 投影到选定的超平面。

决策面构建

由于损失可视化主要用于分析模型的收敛性,损失函数 F(θ,x)通常用交叉熵损失表示,这在可视化中构造了一个传统的损失面。然而,基于交叉熵的损失表面的一个关键限制是,它不能定性地显示一个输入测试的显式决策边界,而且对对抗性欺骗分析的帮助也较小。

因此,我们提出了一个决策面来替换损失可视化中的损失面:

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(4)

其中,Z(x)是 softmax 层之前的日志输出,而 t 是输入 x 的真实类索引。决策函数 S(x)评估预测的置信度。在正确的预测情况下,S(x)应始终为正数,而 S(x)<0 表示错误的预测。具体地说,S(x)=0 表示正确和错误预测的相同置信度,这是模型的决策边界。因此,该决策定义了由函数 S(x)构造的可视化曲面。与基于交叉熵的损失表面不同,决策表面展示了显式的决策边界,并协助对抗性分析。

3.2可视化对抗性漏洞

实验分析

基于损失可视化,我们将神经网络的损失行为投影到二维超平面上。通过比较该模型在决策表面上的 4 种不同类型的损失行为,我们对对抗性脆弱性进行了实验分析。

如图 2 所示,可视化的超平面的中心点作为原始神经网络输入,其 x 轴共享相同的随机输入散度方向-α。同时,每个超平面都有一个专用的输入发散方向——沿 y 轴的 β,表明 4 种扰动,包括随机噪声、基于交叉熵的非目标 FGSM 攻击,最可能针对 FGSM 攻击和非目标反恐战攻击。这三种对抗性攻击中的特定 β 值可确定为:

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(5)

其中 N 是正态分布,Z 是 logit 输出,yt 是真正的类标签,yl 最不可能是类标签(都是单热的)。

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(6)

图 2:当输入空间中的损失曲面投影到不同的超平面上时的对抗性漏洞演示。

在图 2 中,我们使用箭头表示穿过决策边界 L(x)=0 的最短距离。如图 2(a)所示,当输入因沿随机方向的扰动而发散时,跨越决策边界需要更长的距离。这解释了具有小随机噪声的自然图像不会显着降低神经网络精度的常识。相比之下,对于图 2(b)∼(d)中预测的对抗性攻击,攻击会找到攻击性方向(y 轴中显示的 β 方向),决策边界位于原始输入周围的近邻中。 因此,将那些即使是人类也无法感知的小扰动添加到输入中会误导模型决策并生成对抗性示例。

漏洞解释

上述实验分析揭示了对抗样本的本质:尽管神经网络在模型训练后似乎收敛得很好(演示的模型在 CIFAR10 上达到了 90%的准确率),但仍然存在神经网络无法分类的大面积图像点正确(如图 2(b)(d)中决策边界外的大区域所示)。更糟糕的是,其中一些区域非常接近原始输入点。

基于这些分析,我们可以得出结论,对抗样本不是由攻击者“生成”的,而是“自然存在”的,模型无法正确学习。为了修复神经网络的这种内在脆弱性,本质和最终的鲁棒性增强应该集中在解决“邻域欠拟合”问题上。

3.3解释对抗性的鲁棒性

为了验证几何鲁棒性理论,分别比较在 MNIST 和 CIFAR10 上训练的两对鲁棒模型和自然模型。这些模型从对抗性攻击挑战中释放出来,具有相同结构但不同的鲁棒度。

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(7)

图 3:MNIST 上的自然和鲁棒模型的决策曲面。(a)-(b):随机和对抗投影中的自然模型表面;(c)-(d):随机和对抗投影中的稳健模型表面(每个单位表示 0.05 扰动步长)

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(8)

图 4:CIFAR10 上的自然和稳健模型的决策面(步长=1)。按照假设,自然模型的表面显示陡峭的山峰和悬崖,而稳健的模型显示平坦的高原。

为了验证我们的理论,我们将模型的决策面可视化进行解释:(1) 如图 3 所示,可以观察到自然决策面和稳健决策面之间的巨大差异:自然(脆弱)模型的决策面显示出尖峰和大斜率 ,决策置信度可能会迅速下降到负面区域(错误的分类区域)。(2) 相比之下,在鲁棒决策面上(如图 3(c)(d) 所示),原始输入点周围的所有邻域点都位于 L(x) > 0(正确分类区域)的高原上。(3)邻域中的表面相当平坦,斜率可以忽略不计,这正是鲁棒训练中使用的对抗性攻击约束。在 CIFAR10 的图 4 中可以观察到类似的现象。

这种鲁棒模型的损失几何结构验证了先前的结论,即解决邻域欠拟合问题是神经网络中的基本鲁棒性增强解决方案。决策表面上原始点周围平坦而宽的平台是鲁棒模型最理想的特性之一。

4、对抗性鲁棒性评估

4.1鲁棒性度量的正式定义

如前所述,鲁棒模型的决策面应该在输入点 x 周围有一个平坦的邻域。直观的解释是,一个稳健的模型应该具有良好的预测稳定性——它的预测不会随着小扰动而发生显着变化。事实上,模型并不总是稳健的——模型对干净输入和嘈杂输入的预测并不总是相同的,并且可能会因小的对抗性噪声而在很大程度上产生分歧。因此,给定一个可行的扰动集,原始预测和最坏情况对抗性预测之间的最大差异可用于表示模型的脆弱程度(即模型稳健性的倒数)。

基于此定义,首先,我们计算了在原始输入上的两个预测和在定义范围内具有扰动的对抗性输入之间的散度。具体地说,我们使用库勒贝克-莱布勒散度,它被称为 KL 发散(DKL),是测量两个概率分布之间散度的常见评估度量。形式鲁棒性可通过:

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(9)

其中 P(·)是评估模型的预测结果。较低的散度 DKL 表明模型更加稳健,因为保持了更稳定的预测。最终的稳健性度量 ψ(x)被定义为与最大 DKL 成反比,因为最大的分歧将产生最小的稳健性分数 ψ(x)。为了获得方程 4 中的最大项,我们使用梯度上升算法直接优化 KL 散度,这证明了我们将在第 5 节中展示的准确和稳定的估计。

4.2针对模型重新参数化的不变归一化

以往工作中定义的鲁棒度度量有一个称为“模型重新参数化”的问题:在权重和偏差同时被相同系数增大的条件下,神经网络模型的预测结果及其鲁棒性不会改变,而定义的 KL 散度可以有显著的变化。

为了解决这个问题,我们设计一种简单而有效的归一化方法:基本思想是在登录层输出后添加一个尺度不变的归一化层。由于对数层之前的神经网络是分段线性的,因此可以使用归一化来安全地消除模型重新参数化的尺度效应。基本过程如下:首先,我们获得对数层的置信向量,它可以包含正值或负值;然后将它们除以最大绝对值,将信心向量归一化到(-1,1)的范围,并将它们重置于正范围(0,2)。拥有最大分法后,即使参数线性增大(或向下),最终置信度向量也不会发生变化。最后,我们使用一个简单的和归一化来将置信向量转换为一个有效的概率分布。总体标准化是:

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(10)

这里 P(x)是最终归一化概率分布,F~是归一化置信向量,F(x)是原始 logit 层输出,x 是输入。通过上述归一化方法,我们可以成功减轻模型重新参数化的影响,如第 5 节所示。

5.鲁棒性评估实验

5.1实验设置

为了测试我们的神经网络鲁棒性评估指标的普遍性,我们采用了三个常见的数据集(即。MNIST、CIFAR10 和 ImageNet)和不同的实验模型,包括 FcNet、CevNet、ResNet18、ResNet152 和 DenseNet。为了进一步测试不同鲁棒度的神经网络上的度量,应用以下防御设置:无防御,对抗性训练,梯度正则化训练,防御蒸馏,梯度抑制和 MinMax 训练。

相应地,鲁棒性验证是基于引用目前两种最强攻击的对抗性测试精度:基于交叉熵损失的 30 步 PGD(PGD-30)攻击和基于 C&W 损失的 30 步 CW(CW-30)攻击。

5.2鲁棒性度量评估

表 1:MNIST 的鲁棒性指标评价

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(11)

MNIST实验。在 MNIST 数据集上,结果见表 1:(1),结果首先表明,我们的度量可以很好地反映同一神经网络模型上的不同鲁棒度。例如,三个 FcNet 模型在 ψ(x)中显示出日益增强的鲁棒性,这与 PGD-30 和 CW-30 攻击的参考精度很好;(2)结果还显示了我们在 FcNet 和 LeNet 模型上度量的普遍性。

表 2:CIFAR10 的鲁棒性指标评价

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(12)

CIFAR10个实验。表 2 显示了 CIFAR10 的实验结果,包括三种常见的神经网络模型(即。ConvNet、ResNet18 和 DenseNet),以及三个鲁棒性设置(即。无防御、梯度正则化和最低最大训练)。实验结果表明,我们的度量与所引用的对抗性测试精度具有相同的尺度,这意味着我们的度量在复杂的神经网络模型和不同的防御上具有很好的通用性。为了更好地说明神经网络模型的鲁棒性,我们在图 5 中可视化了三个具有不同鲁棒度的 ResNet18 模型。随着鲁棒度的增加,模型的损失表面变得越来越光滑。我们的经验可视化结果表明,在输入空间中,更平滑的决策表面具有更好的对抗性鲁棒性,这恰好与参数空间泛化假设相匹配。

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(13)

图 5:不同模型的损失可视化:具有较高鲁棒性的模型显示更光滑稳定的几何。

ImageNet实验。在 MNIST 和 CIFAR10 的实验中,我们提出的稳健性指标与 PGD-30 和 CW-30 的对抗性测试精度非常吻合。在 128 个 V100 GPU 上进行 MinMax 训练所需的报告时间约为 52 小时。尽管如此,报告的准确率显示了模型的非常好的鲁棒性估计,在 2000 次迭代 PGD 攻击下可以达到 42.6%。然而,当我们通过 CW-30 攻击更彻底地评估模型时,我们发现模型在攻击下的测试准确率只有 12.5%。我们将这种情况称为基于 PGD 的对抗性测试中的“不可靠估计”,其鲁棒性估计不能推广到所有攻击。我们将在第 5.3 节中详细讨论这个案例和其他几个类似的案例,并揭示当前基于对抗性测试的稳健性估计的不足。

5.3我们的指标与对抗性测试的准确性

如上所述,来自不同对抗性攻击的对抗性测试精度可能表现出一定的不一致性,从而误导鲁棒性估计。除了 ImageNet 的例子,我们还包括另外两个对抗性测试精度估计不可靠的案例:防御性蒸馏和梯度抑制。

为了证明这些情况的不可靠性,分别使用自然训练、防御蒸馏和梯度抑制方法训练了三个新模型的 MNIST 和 CIFAR10。对于 ImageNet 模型,使用一个公开发布的模型 4,它可以在对抗 PGD-30 攻击时达到最先进的 45.5%的精度。

表 3:对抗性测试准确性不可靠情况

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(14)

整体的实验结果如表 3 所示,这表明虽然所有这些防御措施都可以达到很高的 PGD-30 对抗性测试精度,但它们实际上带来的鲁棒性提升非常有限:

在 MNIST 和 CIFAR10 上,蒸馏和梯度抑制防御为模型提供了对抗 FGSM 和 PGD-30 攻击的高对抗性测试精度(甚至比最先进的 MinMax 方法更高),这似乎表明这些模型具有显著的鲁棒性。然而,当用我们的度量测量时,我们有相反的结论:这些模型仅仅像无防御模型一样健壮,与 MinMax 训练的鲁棒模型无与伦比。为了进一步验证这一结论,我们用更具对抗性的设置来测试这些模型,并且测试精度在所有的测试中都显著下降到几乎为零。

上述测试进一步证明了我们的说法:基于 PGD-30 的对抗性测试准确性可能会产生不可靠的稳健性估计,无法反映模型的内在稳健性。这是因为蒸馏和梯度抑制都依赖于输入梯度消失来实现鲁棒性增强,这主要由非线性 softmax 和负对数损失提供。由于 C&W 攻击不依赖于交叉熵损失,因此可以轻松破解这两种防御。这种情况也适用于使用 MinMax 防御训练的 ImageNet 模型,如表 3 的最后两行所示。相比之下,我们的鲁棒性度量可以成功地反映具有不同防御的模型真实的鲁棒性属性。

5.4再参数化不变性评估

我们提出的度量标准的可靠性也反映在模型参数缩放的不变性上。之前的工作试图定义一个名为 e-锐度的度量,以评估损失表面的几何属性。采用其原始定义并将其应用于输入空间以评估输入空间损失表面的锐度,这可以根据经验反映上述对抗性泛化。

实验结果如表 4 所示,其中 e 表示 e-sharpness,ψs 表示我们基于没有归一化的 softmax 层的鲁棒性度量,而 ψn 表示我们带有归一化的鲁棒性度量。对于测试用例,Org. 表示使用原始模型进行的测试,没有重新测量,*100 和 /100 表示模型的 logit 层权重和偏差被相应地缩放。请注意,这种缩放不会在实践中引入准确性和鲁棒性变化。

实验表明,e-sharpness 和非归一化 ψs 都给出了受重新参数化影响的非常不同的鲁棒性估计。相比之下,归一化方法成功地减轻了缩放影响,并使我们的度量 ψn 在模型重新参数化下保持稳定的估计。因此,我们的度量因此可以用于更精确地捕获一个模型的鲁棒性程度,而不受模型重新参数化的影响。

5.5鲁棒度指标的效率

图 6:随着批量尺寸的增加(100 至 1000),鲁棒度测量也越来越稳定。

神经网络指数稳定性是什么(解释评估神经网络鲁棒性)(15)

在这里,展示了我们的指标与对抗性测试方法相比的效率。由于正在评估模型属性,因此理论上它应该与我们选择的输入数量保持不变。随着测试批量大小的增加,计算出的稳健性度量逐渐收敛到接近整个测试集平均稳健性的稳定稳健性估计。图 6 显示了与批次大小的关系以及具有相同批次大小的批次之间的稳健性偏差。我们可以看到,在两个数据集上,随着批量大小的增加,稳健性测量变得更加准确,因为它们的偏差要小得多。当批量大小等于 1000(或更少)时,我们可以获得模型的稳健性估计,在 MNIST 上的偏差小于 10%,在 CIFAR10 上的偏差小于 5%,这证明了比在整个测试集上运行的准确度测试更高的效率。

5.6鲁棒性估计等级

根据我们的实验,我们可以得出不同稳健性评估分数与对抗精度之间的粗略关系。由于目前有限的稳健性(40% 和 15%),CIFAR 和 ImageNet 的稳健性分级尚未得到很好的发展。

6、结论

在这项工作中,通过可视化和解释神经网络在输入空间中的决策表面,我们表明,对抗性的例子本质上是由神经网络的邻域不拟合问题引起的。相反,鲁棒模型能够平滑它们的邻居,缓解这种欠拟合效应。在这种观察结果的指导下,我们提出了一种基于模型预测在给定邻域约束中的最大 kl 散度的模型固有鲁棒度评估度量。结合我们新设计的归一化层,鲁棒度度量比以前的方法具有多种优点,包括:跨数据集/模型/攻击/防御的极大普遍性、重新参数化下的不变性和优异的计算效率。

致谢

本文由南京大学软件学院 2021 级硕士石孟雨翻译转述。

,