一击学会降维打击!

小伙伴们,大家好,欢迎来到小洋专栏!不知道上期的细胞毒IC50图大家学会了嘛?这一期,小洋将向大家介绍如何利用仙桃学术工具来绘制PCA和UMAP图。

基本概念

生信分析的方法(一招教你学会生信分析的)(1)

基本概念:PCA:即主成分分析,是数据降维的方法。从高纬数据中提取数据的特征向量(成分),转换为低维数据并且用二维或者三维的图来展示这些特征。从特征向量中提取最能体现数据特征(差异)的 2 个特征向量(成分)用于可视化,这就是 PCA 图。

UMAP :也是数据降维的一种方法和可视化。在高纬度构建一个图,然后经过优化(拓扑学和几何学)后,在低维度中寻找类似的图来尽可能表征高纬度的差异。

生信分析的方法(一招教你学会生信分析的)(2)

应用场景

生信分析的方法(一招教你学会生信分析的)(3)

应用场景:PCA:可以用于查看数据特征情况,比如可以用于高通量数据中样本之间聚类的分布情况。

UMAP:用于查看数据特征情况,例如可查看数据集表达谱中样本间差异。

生信分析的方法(一招教你学会生信分析的)(4)

主要结果

PCA

生信分析的方法(一招教你学会生信分析的)(5)

典型的 PCA 图为点图

UMAP

生信分析的方法(一招教你学会生信分析的)(6)

典型的 UMAP 图为点图

数据要求

PCA

生信分析的方法(一招教你学会生信分析的)(7)

文件不能大于 50M,列数最多为 500 列,行数最多 50000。仅支持 csv 或者 text格式文件。除了头部的注释行(#开头),下面的内容中不能含有非数值的内容。

UMAP

生信分析的方法(一招教你学会生信分析的)(8)

目前仙桃学术的UMAP图绘制采用的是云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。

实战演练

下面让我们来看一篇2021年8月发表在“Computational and Structural Biotechnology Journal”(IF= 7.271)杂志上的一篇文章。题名为“The molecular feature of macrophages in tumor immune microenvironment of glioma patients”。

生信分析的方法(一招教你学会生信分析的)(9)

期刊简介

生信分析的方法(一招教你学会生信分析的)(10)

使用工具

仙桃学术(https://www.xiantao.love

表格复现

PCA

生信分析的方法(一招教你学会生信分析的)(11)

复现过程

进入仙桃学术,点击【生信工具】

生信分析的方法(一招教你学会生信分析的)(12)

【高级版】 → 【立即使用】

生信分析的方法(一招教你学会生信分析的)(13)

【基础绘图】 → 【PCA图】 → 上传数据

生信分析的方法(一招教你学会生信分析的)(14)

我们参考文献中的PCA图,模拟一份数据,然后进行绘图:

生信分析的方法(一招教你学会生信分析的)(15)

上面的数据是模拟数据,所以并不会和文献中的图片完全一致。不过复现我们主要掌握方法即可,不需要完全复现。上传数据后,点击“确定”进行绘图,并保存结果。

生信分析的方法(一招教你学会生信分析的)(16)

生信分析的方法(一招教你学会生信分析的)(17)

UMAP

生信分析的方法(一招教你学会生信分析的)(18)

【数据集模块】 → 【UMAP图】 → 云端数据→确定

生信分析的方法(一招教你学会生信分析的)(19)

目前仙桃学术绘制UMAP图只能针对云端数据。这里的云端数据与历史记录中的数据集分析后的数据记录是保持一致的,可以在历史记录中找到相应的数据记录。如果有小伙伴们还不清楚该如何利用仙桃工具来进行数据集分析,那么,可以回看小洋专栏之前的推文,里面有详细的步骤哦~

生信分析的方法(一招教你学会生信分析的)(20)

生信分析的方法(一招教你学会生信分析的)(21)

好啦,本期有PCA和UMAP图的相关内容就介绍到这里,希望对大家的科研工作有所帮助。我是小洋,我们下期再见~

,