深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(1)

引用

Schulz, Alexander and Hinder, Fabian and Hammer, Barbara, "DeepView: Visualizing Classification Boundaries of Deep Neural Networks as Scatter Plots Using Discriminative Dimensionality Reduction", in Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, IJCAI-20, pp.2305--2311, 2020.

摘要

使用深度架构的机器学习算法已经能够实现越来越强大的模型。然而,它们也变得越来越复杂,更难理解。到目前为止,文献中的大多数方法都研究单个给定输入数据模型的决策。本文提出将二维深度神经网络的决策函数的一部分和二维数据集进行可视化。这使我们能够检查模型是如何处理数据的不同属性,如异常值、对手或有毒数据。此外,所提出的方法是对文献中提到的解释方法的补充,因此结合这些方法可能更有用。代码可在 https://github.com/LucaHermes/DeepView 上获得。

1、引言

人工智能方法在自动驾驶、算法交易、医疗诊断或推荐系统等不同领域的相关性日益增强,同时这些技术也很脆弱:他们在日常生活中非平稳环境中的使用违反学习理论的基本假设;对抗性攻击或中毒可能导致单个决策或整个模型行为的不可预测行为;如果不进行过滤,训练数据的倾斜抽样可能导致严重偏见或不公平的机器学习模型。结合法律要求,如欧盟的一般数据保护法规和解释权,这些问题导致最近可解释 AI 的增加,包括稀疏的局部解释,因果建模,反事实推理,特征相关性确定,或显著性地图,仅举几个方法。这些方法都是伴随着第一种方法,旨在量化人类的可解释性是的含义。

然而,许多技术侧重单个决策,而不是在输入空间中显示部分决策边界和网络的泛化行为。目前为止,在构建人类惊人的视觉感知能力和在视觉图中显示深层网络行为方面的努力相对较少,这种视觉图概括了分类处方的一种极其自然和直观的可视化;散点图。这在模式识别的标准教科书中经常被用来解释分类处方,甚至在的封面图像中也有。然而,在高维输入空间的深度网络中,还不存在一种计算散点图、显示训练数据、通过决策边界和网络置信度来丰富训练数据的方法。高维确实是主要的障碍,因为不同维数的拓扑空间之间不存在映射。一个关键的挑战是如何有效地确定正则化以及需要显示数据空间的哪些方面。在这一贡献中,我们将建立在非线性降维技术的丰富工作,特别是最近的方法统一流形近似和投影(UMAP),这是由明确的拓扑动力数学证实的,我们提出 DeepView,能够与基准数据一起显示训练后的深度网络的决策功能。为此引入两个核心要素:(i)提出 UMAP 的一种新的鉴别变体,考虑与预先训练的深度网络相关的信息,并且提出一种数学上合理的方法来有效地计算这些信息。(ii)进一步提出一种新的方法来丰富 UMAP,从而提供一个“逆”映射,它从信息中提取,但与深度网络无关(显然,不存在精确逆)。(iii)演示新的可视化管道 DeepView 对于流行的深度学习模型和数据集的有效性。

2、相关工作

虽然可解释 AI 的许多方法旨在解释模型的单个决策,但也有少数方法试图提供训练模型的大范围视图或可视化其决策边界。这里有明显的例外情况,即根据解决手头任务的不同战略解释数据的预测。尽管它们描述了不同的数据组,但它们不显示分类器的决策边界。进一步相关工作描述分类器的决策边界,但该方法基于输入空间的密度估计,因此对于典型的深度网络域不可行。

关于判别降维证明基于 Fisher 度量的 DiDi 产生更好的或至少与其他形式化相当的可视化。因此,我们将讨论重点放在使用 Fisher 指标实施的滴滴出行上。

3、DeepView:可视化深度网络的决策函数

在二维数据琐碎情况下,经过训练的分类模型的可视化是一件直接有用的事:可以将分类器应用于数据周围区域中的每个位置,并在背景中对预测的标签和确定性进行编码的散点图。非常清楚地说明经过训练的模型在数据空间的每个区域中的表现。

但是对于高维数据不可能,原因如下:(i)虽然使用降维技术(DR)来可视化数据,但常规的降维技术将试图保留数据中的所有结构,并做出关键的妥协,例如,在图像的情况下,保留亮度差异,而不是对象相关属性。(ii)分类器通常在高维空间进行训练。因此,将其应用于数据空间中的每个位置是不可行的,因为位置的数量呈指数增长。(iii)最后,在二维上可视化一个完整的高维分类器是不可能的,因为决策函数是高维的,它的非引导投影将产生严重的信息损失。

3.1 DeepView:建议的可视化方案

在这一贡献中发展一个方案规避这些问题,并提出可行的近似情况下的深度神经网络分类器。特别是建议使用基于训练过的分类模型(第 4.1 节)的 DiDi,使 DR 能够专注于与分类器相关的数据方面,缓解问题(i)。此外,不试图获得对整个数据空间的预测,开发一种仅获得相关子空间的预测,然后使用该子空间在二维上可视化决策函数的方案,这样,通过合理的近似来解决问题(ii)和解决问题(iii)。这是基于反降维的,建模方式与 DR 的构造方式相匹配(第 4.2 节)。

建议采用以下步骤:

1.应用 DiDi 技术 FisherUMAP(第 4.1 节开发)基于底层深度网络,投影由点 xi 到二维组成的数据集,生成 yi=π(xi)。

2.在二维空间中创建一个紧密的正则样本网格,并使用第 4.2 节中提出的方法将其映射到高维空间,生成的点为=π^{−1}(ri)。

3.将神经网络 f 应用于 si,以获得预测和确定性。

4.将标签与投影空间背景中每个位置的确定性熵一起可视化,以获得决策函数的近似值。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(2)

图 1:所提出的方法 DeepView 的图示。在玩具数据上训练的分类器(左)使用 DeepView(中)使用步骤 1-4 进行可视化:数据被投影(中图,步骤 1),创建规则网格(中图,步骤 2)并用 π^{−1}投影(正确的)。然后将分类器应用于后者(步骤 3),并显示预测分布的结果标签和熵(中图,步骤 4)。橙色岛表示由于单个橙色点导致的过度拟合。

4、降维

π:(S, dS)→Rd, d = 2,3,其中(S, dS)是某个度量空间,这样 π 保留了一组数据点 x1,…, xn∈S 尽可能好。因此,DR 方法的主要方面是找到一个度量,从而找到一个成本函数,来比较两组点中包含的信息,从而使我们能够找到一组点 y1,…,yn∈Rd, d = 2,3 编码近似相同的信息。虽然执行非线性 DR 的最先进的方法是 t-分布随机邻居嵌入(t-SNE),最近开发了一种叫做 UMAP 的新技术,它产生了至少与 t-SNE 可比较的结果,并以我们用来发展我们的逆投影 π-1 的方式来表述。因此,我们将重点放在 UMAP 上,并在下面介绍一些正式的细节。

UMAP 假设数据根据黎曼流形上的均匀分布分布,该流形可以用单纯复形近似。为了找到低维嵌入,问题仅限于复杂的 s1-骨架,即两点通过边连接的概率。假设边缘的概率是由端点之间的距离和局部密度引起的。在嵌入空间(R^d , d = 2, 3)中,这由学生 t 分布 wij = (1 a||yi−yj||^{2b})^{−1} 建模,其中 a 和 b 是超参数,在原始空间(S, dS) 中使用 vij = vi|j⊥ vj|i ,其中 x⊥y = x y−xy 是 T-conorm 和 vi|j = exp (−max(d(Xi,Xj)^2−pi,0)/σi),σi 是 xi 处的 k-perplexity,ρi = mini≠j d(xi, xj )^2 是到最近邻居的距离。

然后找到 y1,…,yn∈R^d,d=2,通过最小化嵌入的库背-莱伯勒发散:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(3)

4.1 判别降维

DR 通常只考虑观察到的数据点。但是,由于希望将分类器 f 与数据点一起可视化,因此也可以合并 f;这种方式被称为 DiDi 方式。这些特别关注对给定分类任务重要的结构等指定数据中的哪个结构比其他结构更重要。为此,一个非常有前途的方法是使用 Fisher 度量在距离计算中集成类信息,并因此在顶部应用常规 DR 方法。因此,Fisher 度量不是在模型的参数空间中定义的,但在数据空间中。对于这种情况,论文“Information retrieval perspective to nonlinear dimensionality reduction for data visualization”证明了基于 Fisher 度量的 DiDi 映射的适用性,论文“Using discriminative dimensionality reduction to visualize classifiers”说明了其对浅分类器可视化的好处。

通过提出:(i)在 DiDi 的背景下一个新的推导的 Fisher 度量,(ii)一个新的方法来估计 Fisher 度量不需要计算梯度,(iii)使用 f 作为概率模型,而不是一个新的非参数估计。综合起来,我们可以为高维数据和深度网络计算 DiDi 可视化。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(4)

图 2:测量各点之间的距离。左图:f 和路径。右:沿各自路径出现类紫色的类概率。

设 S 是带有度量 dS 的源空间,C 是所有类标签的集合,f: S→P(C)是我们的分类器,其中 P(C)表示所有可能的类概率空间。与 dS 我们也希望 d 捕获的诱导的拓扑特性决定边界 f:第一步骤是考虑 f∗dj(s, t):= dj (f, f (t))所谓 pullback-metric f,这里 dj (p, q)表示 Jensen-Shannon-metric p (C)的指标。这个回退是边界特征的指示器,它告诉我们无论何时两个点映射到相同的类,但它有两个问题:(a)在 S 上不是适当的度量,即所有具有相同赋值的点都被压缩为单个点,(b)不能决定何时两个点属于由决策边界引起的相同连通分量,例如图 2x, x' vs. x, z。

为了克服(a),我们使用参数 λ∈[0,1]规范 dS。克服(b)注意 f∗dJS(s,t)只捕获 fat 和 t 的信息,而不捕获“它们之间”的信息。根据上述正则化的回撤作为其距离,我们使用连接两点的最短路径的长度;其行为如图 2 所示。

因此,我们得出了以下形式化的结论:

定义 1. 对于度量空间 (S, dS) 和分类器 f,将 DiDi-metric d 与混合 λ∈[0, 1]定义为由 JensenShannon 度量沿 f 回拉引起的弧长度量用 dS 正则化,即:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(5)

定理 1。设(S,dS)是一个度量空间和 f 光滑分类器,用混合 λ=0 的度量和 dFisiher 度量(如[Kaski 等人,2001]定义)表示,那么它成立:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(6)

定义 1 不需要梯度计算。此外,不再需要对数据空间进行密度估计,这对于深度网络的典型域来说是不可行的。

为了实现这种方法,我们假设 d(x, y) 可以用直线上的 n 个等距点 pi=(1−i/n)x i/n*y 来近似,即:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(7)

这些近似在论文“ Improved learning of riemannian metrics for exploratory analysis”中进行了评估,结果它们在应用速度和准确性之间构成了很好的妥协。最后一步使用非线性 DR 技术来投影产生的距离 d(x, y)用于可视化。为此,论文已经证明 NeRV 和 t-SNE 等邻域嵌入方法特别适合

4.2 逆维约简的相似坐标嵌入

目前为止已经讨论了寻找映射 π:(S,dS)→R^d,d=2,3 的任务。现在我们感兴趣的是找到一个反向映射 π^{−1}:R^d→(S,dS),它作为 π 的伪逆。特别是,在 π 由 UMAP 给出的假设下,以自然的方式得到 π^{−1}。

在某种意义上 π^{-1}执行相反方向的样本外扩展;因此首先考虑一个“通常的”样本外扩展:假设我们有一些新样本 x ∈S 并让 vi(x)表示 xi 和 x 接近或相似的概率(即 vi(xj ) = vij ),然后 UMAP 旨在通过最小化 vi(x)和 wi(y)的 KullbackLeibler 散度来找到 y∈R^d,其中 wi(y)表示 yi 和 y 接近或相似的概率。按照贝叶斯的观点,为了确定 π^{-1},我们交换 x 和 y 的角色并得出:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(8)

其中我们使用 vi(x) = exp(−dS(θi, x)^2/σi) 和 wi(y) = (1 a||ρi−yk2b) 1 与 UMAP 的情况一样,我们必须 找到 θ1, ..., θn 和 ρ1, ..., ρn 使得 π^{−1} 在我们的观察中拟合 π,即 dS(π^{−1}(π(xi)), xi)→ min .

为使方法可行,必须找到一种在合理的时间内计算 π^{−1}的方法。由于很大程度上依赖于 dS,所以只详细地考虑两个例子:dS 是欧几里得度量或黎曼度量。

假设 S=R^D 与 d≤D 和 dS=||·||2 是欧几里得度量。

定理 2.设 x1, ..., xn∈ R^D 是源点,y1, ..., yn∈ R^d 是它们对应的投影。用 f(x, y) =Σ^n_{i=1}DKL(wi(y)||vi(x))表示 π^{−1}的成本函数,用 fˆ(x, y) =Σn_{ i=1}wi(y)||θi − x||^2/σi 。然后它持有 fˆ(x, y) < f(x, y)。此外,在输入空间中高斯噪声的假设下,均值成立。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(9)

此外,它还适用于:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(10)

利用这个定理,我们看到用径向基函数网络逼近 π^{−1}是非常适合的。将我们的方法推广到任意的、有限维的、内积空间就足够了:

引理 1。设 S 是一个有限维的实向量空间。设 d:S×S→R 是一个由内积诱导的度量,X 是一个 s 值随机变量。然后它就会保持不变:

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(11)

因此,如果我们考虑一个黎曼流形(M,dM),并且我们在 x∗ 处近似 dM,我们正在寻找的点,我们得到了与欧几里得情况下相同的公式。

此外,当使用欧几里德度量训练 π^{−1}时,结果与我们使用 Fisher 矩阵使用 dS 的局部近似训练的情况相当。

5、实验

本节应用所提出 DeepView 可视化在数据集 CIFAR-10 和 Fashion-MNIST 上训练的分类器,并在存在对抗性和后门攻击的情况下展示示例性发现。然而,在应用它之前,重要的是调查这种可视化的准确程度。

5.1 评估建议的可视化

在解决问题(i)时,我们遵循以下直觉:如果投影 π 适当地考虑了分类器的决策函数,那么分类决策应该部分地在投影数据点的结构中表示。I.e.彼此接近的点应是由分类模型分类相似的点。我们可以通过使用深度网络的标签来评估在投影空间中训练的简单分类器的准确性来验证这一点的真实程度。为此,我们利用一个 k-最近邻(kNN)分类器的遗漏误差,其中 k=5 是一个标准选择,并将此度量称为 QkNN。当我们考虑基于欧几里得度量的 UMAP 时,我们表示这个度量为 QkNN-E。

(ii) 评估 π^{−1} 不太直接。在这里,我们提出了一种方案来评估所描绘的决策函数对数据点位置的质量。对于每个点 yi ,比较其原始对应点的分类标签和其逆投影的分类标签。 更正式地,我们计算 f(π^{−1}(yi))和 f(xi)的一致性。根据选定的点,这种评估将具有不同的含义:使用已用于训练 π−1 的对(xi, yi)将导致对数据点位置处的质量进行评估。使用尚未用于训练 π^{−1}的点对将评估之前未见过的位置(即没有数据的区域)的映射质量。两者都很有用,因为它们告诉我们可视化在数据点可用的区域和数据点不可用的区域有多准确。我们将用 Qdata 指代前者,用 Qdata 指代后者。

用这些分数来评估结果的可视化,其中我们使用 70%的数据来训练 π。

5.2 超参数选择

以下方式选择欧几里得正则化 λ 的量:用 λ∈[0.2,0.8]评估 QkNN 的 π,并选择不显著降低 QkNN 的最大的一个。因此为这两个数据集设置了 λ=0.65。就 UMAP 而言,我们在所有情况下都设置了 n_neighbors=30,而 Fashon-MNIST 将 min_dist 设置为 1。对于 π−1,我们将 a 设置为最小的值,这不会导致 Qdata 和 b=1 的大幅下降。

5.3 可视化在 CIFAR-10 数据集上训练的 ResNet-20 网络

CIFAR-10 数据集由 10 个类别的 32x32 彩色图像组成(见图 3)。训练集包含 50,000 个示例,本实现在 10.000 个测试图像上的准确率为 91.7%,使用具有 20 层的预训练残差网络 (ResNet)。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(12)

图 3:对在 CIFAR-10 数据集上训练的 ResNet-20 模型以及测试数据子集的可视化。这个黄色的大圆圈描绘了一个敌对的例子。

从测试集中随机选择 ReepNet-20 网络的 300 点的结果如图 3 所示。每个点对应于一个图像,其颜色表示其原始标签。如果深网的分类不同,则根据颜色中的十字架表示该标签。背景的颜色描述了该区域的网的分类,而强度编码了确定性。

表 1:第 5.1 节中规定的评估标准的结果。除了 QkNN-E 外,还使用了 FisherUMAP。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(13)

首先,我们考虑对结果可视化的评估,其次,讨论可以从中得出的信息。表 1 总结了前者。为了完整起见,我们还评估了基于欧几里德度量(QkNN-E)的 UMAP 投影。这种情况下的准确度为 18.3%,这清楚地表明这种嵌入在这种情况下没有用。然而,使用 Fisher 度量,准确率 96.3%,表明投影空间非常类似于我们模型的分类行为。关于决策函数的可视化,接近完美的 Qdata 表明可视化在给定的数据点上非常准确。对于数据点附近,Q¬data 评估准确度为 83.3%。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(14)

图 4:图 3 上的放大图以及对抗性示例周围指定位置的标记(左)。针对先前指定的位置的反向映射 π−1 的结果图像,以及指定的标签和根据分类器的确定性(右)。

关于可视化,“orange”类的决策边界似乎具有复杂的形状,这表明该类可能特别困难。实际上,在检查混淆矩阵时,该类的真阳性率最低,为 83.2%。此外,我们可以确定一些特殊处理的点。一个例子是我们用更大的符号描绘的黄点。这构成了我们使用模型梯度的符号创建并添加到 300 张图像中的对抗性示例。可视化显示了该点如何被分类器归类为橙色,但该区域被黄色类包围。由于这似乎值得仔细研究,我们放大了相应的区域(见图 4,左)。因为这个可视化是通过逆映射构建的,我们可以根据可视化中的任意位置检查图像。为了做到这一点,我们在对抗性示例(见左图 4)附近指定了潜在的有趣位置,并在右侧用 π^{−1}描绘了它们的投影。标记“0”和“2”位于黄色类(“船”)的区域内,相应的图像可以清楚地识别出来。尽管标记“2”、“3”、“4”和“5”的图像看起来相当相似,但它们的分类差异很大,从“船”到“汽车”再到“船”。这些图像表明,“船”类内部似乎有一种“汽车”类的“口袋”,而这个口袋中的图像对人类来说仍然是天然的船。“口袋”的概念在之前的文献中已经提到过。标记“1”靠近被归类为“鸟”的区域,看起来像一只鸟,但被归类为“船”。在这里,模型的决策边界似乎没有很好地调整。“口袋状”区域中的最后一个示例标记“7”显示一艘船上方有深蓝色区域,这可能是错误分类的原因。可以进行进一步的分析以研究这方面,例如显着图。

5.4 带后门的 Fashion-MNIST

我们为 FasionMNIST 数据集训练一个 4 层卷积网络,从而应用数据中毒。 生成的模型在干净的测试集上有 90%的准确率,因此中毒不容易检测到。 随后,我们将 DeepView 应用于包含 20 个后门图像的 600 个示例的测试集,并研究我们是否可以在可视化中检测到后者。

图 5:在中毒的 FashionMNIST 数据集以及 600 个测试数据点(包括 20 个后门样本)上训练的 ConvNet 的可视化。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(15)

图 6:图 5 上的放大图和标记(左)。这些位置的 π−1 的结果图像,以及指定的标签和分类器的确定性(右)。

深度学习图像分割 使用判别降维将深度神经网络分类边界可视化为散点图(16)

DeepView 可视化如图 5 所示,其中可以观察到右下角的一组由不同类型的鞋子组成。 在顶部,可以看到蓝色点(“T 恤/上衣”)和粉红色点(“衬衫”)之间的类重叠。不太预期的是橙色('裤子')和黄色点('包')的邻域,对于橙色点的子集尤其如此。因此,我们在图 6 中仔细查看该区域。我们使用与之前类似的方法并使用 π^{−1} 调查可疑区域。在这里我们可以观察到,主要橙色集群中的一个区域对应于普通裤子(标记 0),而标记 2 和 3 处的区域对应于被归类为裤子并在右上角具有特定图案的袋子。

6、结论

本文提出了 DeepView,第一个能够可视化深度神经网络决策函数的平滑二维流形的算法,该网络在自然图像等高维数据上进行训练。为此采用 DiDi 的数学精确公式以及逆 DR 的匹配选择。 我们将 DeepView 应用于两个深度网络,一个在 CIFAR-10 上训练的具有 20 层的残差网络和一个在中毒的 Fashion-MNIST 上训练的 4 层 ConvNet,并说明它如何提供对模型和数据的洞察。

虽然我们仅针对图像数据演示 DeepView,但该方法并不限于此领域和用途,例如文本分析构成了一个有趣的进一步应用领域。在这方面,一个令人兴奋的悬而未决的问题是如何在时间数据的情况下扩展使用的 Fisher 度量。

我们相信,所提出的方法不仅可以提供对训练模型的见解,而且也有助于改进这些模型。提供对缺乏数据的领域的见解。

致谢

本文由南京大学软件学院 2021 级硕士石孟雨翻译转述。

,