先放一张PCA图

pca主成分分析图怎么做(主成分分析PCA)(1)

image.png

主成分分析(Principal Component Analysis)是不是听起来就一脸懵,下面就让我们来看看PCA是何方神圣!

01

降维?

主成分分析的字面意思就是用主成分来分析数据呗!阔是,什么是主成分?这就不得不聊一个关于“降维”的故事了。

“学医要考研,考研要复试,复试要…要…要…复试不仅让考生心痛更让导师眼花缭乱。”这不,A导就纠结着到底选5个复试学生里的哪一个来当自己的关门弟子?

A导最终决定用数据说话!设置了“绩点,考研分数,科研能力,笔试成绩,面试表现,英语水平,奖学金,学科竞赛,部门任职”9个指标(相当于从9个维度去评价这5位考生)。9个指标=9个变量=9个维度

pca主成分分析图怎么做(主成分分析PCA)(2)

image.png

pca主成分分析图怎么做(主成分分析PCA)(3)

image.png

我的三维大脑是搞不定的看来9维是不行了,那怎么把维度降低,用简单的方法表示复杂的数据分析?

当然是用降维了!降维是通过减少数据中的指标(或变量)以化简数据的过程。这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个“综合指标”来代表整个数据。

PS:降维的原理涉及复杂数理知识且大多由计算机完成

那么问题来了!这个“综合指标”是什么?为什么它们就可以代表整个数据?

02

Why

主成分?

综合指标=主成分

你没有看错,这个综合指标就是我们今天的重点:主成分。它不是原来的指标中的任何一个,而是由所有原有指标数据线性组合而来。

比如A导的故事中的主成分就可这样表示:

pca主成分分析图怎么做(主成分分析PCA)(4)

image.png

认识了“主成分”以后,PCA的概念就很容易理解了!

PCA——就是以“降维”为核心,把多指标的数据用少数几个综合指标(主成分)替代,还原数据最本质特征的数据处理方式。

可是,主成分为什么拽到可以代替所有数据?认真看看可以发现部分指标其实是相互关联的!(比如奖学金也可以反映绩点情况),这就会造成数据冗余。而降维就可以帮助我们去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。

A导终于可以一眼就区分这5位考生的水平并“理智”地做出选择了!

pca主成分分析图怎么做(主成分分析PCA)(5)

image.png

03如何计算

将学生成绩表示为矩阵形式,一行代表一个学生,每一列代表一门课的成绩

假设找到了一个线性组合(命名为特征矩阵(Yn, k)),其中k<n得到一组新变量Pm, k = Xm, nYn, k,并且新变量的协方差矩阵(Dm, m)为对角阵。设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设

pca主成分分析图怎么做(主成分分析PCA)(6)

image.png

,则C是一个对称矩阵,其对角线分别个各个特征的方差,而第i行j列和j行i列元素相同,表示i和j两个特征之间的协方差。设X的协方差矩阵为C(C为对角阵),P的协方差矩阵为D,且Pm, k = Xm, nYn, k ,那么C与D是什么关系呢。

pca主成分分析图怎么做(主成分分析PCA)(7)

image.png

pca主成分分析图怎么做(主成分分析PCA)(8)

image.png

优化目标变成了寻找一个矩阵Y,满足YTCY是一个对角矩阵,并且对角元素按从大到小依次排列,那么Y的前K列就是要寻找的基,用Y的前K列组成的矩阵乘以X就使得X从M维降到了K维并满足上述优化条件。

pca主成分分析图怎么做(主成分分析PCA)(9)

image.png

A导可是只有5位考生,9个指标而已!在我们医学中!那可是上千的样本量,上万的基因数据......在医学领域中,我们可以用PCA图来进行疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还用它来观察样本的分组、趋势、剔除异常数据。

所以PCA图在文献中出现率还是蛮高的!!!不过遇到它我们怎么看?深入了解PCA识图秘籍

样本点连线距离长 =样本之间差异性大

样本点连线距离短 =样本之间差异性小

pca主成分分析图怎么做(主成分分析PCA)(10)

image.png

通过主成分分析方法(PCA)分析9种食物的蛋白质消耗量(变量)与25个欧洲国家(样本)之间的关系由图可得,大部分欧洲国家蛋白摄入习惯是:吃鸡蛋、红肉(猪牛羊等畜肉)、白肉(禽、鱼肉及水产品),喝牛奶。详细的解析来了!

1、各样本点连线的距离:体现各国家蛋白摄入习惯的相似性。

2、主成分与原变量之间的关系:箭头对应的原始变量在投影到水平和垂直方向上后的值,可以分别体现该变量与PC1和PC2的相关性(正负相关性及其大小)(例如,Eggs对PC1具有较大的贡献,而Nuts则与PC1之间呈较大的负相关性)。

3、样本点和箭头之间的距离:反映样本与原始变量的关系。(对于图中用蓝色粗箭头所指的样本点而言,该国的蛋白质来源主要为Fruits and Vegetables)。怎么样?有没有一种豁然开朗的感觉?

什么?还是懵?

没关系,继续看例子

pca主成分分析图怎么做(主成分分析PCA)(11)

image.png

pca主成分分析图怎么做(主成分分析PCA)(12)

image.png

pca主成分分析图怎么做(主成分分析PCA)(13)

image.png

R语言PCA分析代码

R语言主成分分析(PCA)加“置信椭圆” - 简书

,