数据挖掘主成分分析实验(数据科学小白起步系列)(1)

​主成分分析(PCA)被认为是一种特别成功的特征提取和降维算法。通常用于使数据易于探索和可视化。它的原理是,利用对原来的变量进行线性组合而得到新的变量(主成分),这些变量之间的方差最大。因为数据原来的变量之间有可能差距不大,描述的内容差不多,故效率低下。换句话说,我们可能说了很多话,但是却在讲同一件事情。由于方差在数据中描述的变量之间的差距,故方差最大也就意味着新的变量之间有比较大的差距。这样,就可以以较高的效率描述数据。

一、维度降低算法

维数降低有两种主要算法:主成分分析(PCA)和线性判别分析(LDA),当然,还有其他降维技术,如线性判别分析(Linear Discriminant Analysis、因子分析(Factor Analysis)、等距映射算法(Isomap)等。线性判别分析和主成分分析这两者之间的基本区别在于,线性判别分析使用类的信息来查找新特征,以便最大化类可分性,而主成分分析使用每个特征的方差来做同样的事情。主成分分析将高维数据以尽可能少的信息损失投影到低维空间,以达到简化数据的目的。线性判别分析可以被认为是监督算法,而主成分分析是无监督算法。

二、为什么我们需要总结数据呢?

让我们考虑一下这个例子:我们有一个带有一组汽车属性的数据集。这些属性通过其尺寸、颜色、形状、紧凑车型、座位数量、门数、行李箱尺寸大小、油箱大小、底盘高度等来描述每辆车。但是,许多这些功能将测量相关属性,因此将是多余的。因此,我们应该删除这些冗余。这正是主成分分析的目标。例如,考虑车轮数量作为汽车和公共汽车的特征。几乎每个类的每个例子都有四个轮子,因此我们可以看出这个特征的差异很小(一些罕见的公共汽车有n个轮子),所以这个功能将使公共汽车和汽车看起来一样,但它们实际上是非常不同的。接着,考虑高度作为特征,汽车和公共汽车有不同的值,从最低的小汽车到最高的观光巴士,差异很大。显然,车辆的高度是不同汽车的特征。同时,主成分分析不考虑类的信息,它只是查看每个特征的方差,因为可以合理地假设呈现高方差的特征更有可能在类之间进行良好的分割。

通常,人们最终会误以为主成分分析会从数据集中选择某些功能并丢弃其他功能。该算法实际上基于旧的属性的组合构造新的属性集。从数学上讲,主成分分析执行线性变换,将原始特征集移动到由主成分组成的新空间。这些新功能对我们来说没有任何实际意义,因此不要认为主成分分析会找到从未想过可能存在的新功能。许多人仍然相信机器学习算法是神奇的,他们直接将数以千计的输入投入到算法中,并希望为他们的业务找到所有的见解和解决方案。不要被欺骗。数据科学家的工作是通过使用机器学习算法作为一组工具而不是刘谦的魔术棒,让工作成为见证奇迹的时刻。通过对数据进行良好的探索性分析,来找到对业务的见解与洞察也是非常重要的。

三、主成分空间

在新的特征空间中寻找一些在类别中存在很大差异的属性。正如前面的示例中所讲,一些呈现低方差的属性没有用,找不出区别。另一方面,主成分分析寻找的属性可以显示尽可能多的类,以构建主成分空间。该算法使用方差矩阵,协方差矩阵,特征向量和特征值对的概念来执行主成分分析,从而提供一组特征向量及其各自的特征值。

​那么,我们应该如何处理特征值和特征向量?非常简单,特征向量表示主成分空间的新轴集,特征值带有每个特征向量具有的方差值信息。因此,为了减小数据集的维数,选择具有更大方差的那些特征向量,并丢弃具有更小方差的那些特征向量。

四、例子

(1)2维例子

首先,仅考虑两个维度的数据集,如(高度,重量)。该数据集可以绘制为平面中的点。但是如果我们想要梳理变异,PCA会找到一个新的坐标系,其中每个点都有一个新的(x,y)值。

数据挖掘主成分分析实验(数据科学小白起步系列)(2)

(2)3维例子

有了三个维度,PCA更有用,因为很难看透数据云。在下面的示例中,原始数据以3D形式绘制,但您可以通过与查找摄像机角度相同的变换将数据投影到2D:旋转轴以找到最佳角度。要查看“官方”PCA转换,请单击“显示PCA”按钮。PCA变换确保水平轴PC1具有最大变化,垂直轴PC2具有最大变化,并且第三轴PC3具有最小变化。

数据挖掘主成分分析实验(数据科学小白起步系列)(3)

数据挖掘主成分分析实验(数据科学小白起步系列)(4)

数据挖掘主成分分析实验(数据科学小白起步系列)(5)

(3)17维的例子

表中列出了英国每个国家每人每周17种食物的平均消费量。

数据挖掘主成分分析实验(数据科学小白起步系列)(6)

该表显示了不同食物类型的一些有趣变化,但总体差异并不那么显着。让我们看看PCA是否可以消除维度以强调各国的差异。

数据挖掘主成分分析实验(数据科学小白起步系列)(7)

这是第一个主成分的数据图。我们已经可以看到北爱尔兰的情况有所不同。

看到第一和第二组,我们认为北爱尔兰是一个主要的异常值。一旦我们回头看看表中的数据,这是有道理的:北爱尔兰人吃更多的新鲜马铃薯和新鲜水果,奶酪,鱼和酒精饮料则更少。这是一个很好的迹象,可视化的结构反映了现实世界地理的一个重要事实:在四个不在大不列颠岛的国家中,北爱尔兰饮食非常特殊。(完)

数据挖掘主成分分析实验(数据科学小白起步系列)(8)

亲爱的数据

出品:谭婧

美编:陈泓宇

数据挖掘主成分分析实验(数据科学小白起步系列)(9)

,