几乎现在的套路性文章在做完差异表达分析后,都会去做GO和KEGG富集分析。那么GO和KEGG都是什么?富集分析又是个什么东西呢?

1 为什么做富集分析?

在我们进行差异表达分析的时候,我们会得到很多的差异表达基因。这些基因如果只是按照基因名放到哪里的话,我们很难找到一个规律说这些有基因之间有什么关系的。例如下图,我们把这些差异基因平铺来了之后,就是这么一个情况。

go语言数据分析展示(GO分析和KEGG分析都是啥)(1)

高通量的数据的分析,可以让我们得到很多候选的结果。但是如果只是把结果这样的平铺开的话,反正不利于我们去发现事情的本质。所以为了更情况的看清楚这些基因的功能,我们就使用了富集分析。我们可以把富集分析理解为在把很零零碎碎的东西,通过一个整体来反应出来,类似于从微观到宏观的变化。

利用富集分析,我们就可以把很多看着杂乱的差异基因总结出一个比较整体反应事件发生的概述性的句子。例如:TP53信号通路和胃癌的发生有关。而不是说BAX、BID、ABL1、ATM、BCL2、BOK、CDKN1A这7个基因和胃癌的发生有关系。

go语言数据分析展示(GO分析和KEGG分析都是啥)(2)

2 GO和KEGG是什么?

就算没有做过富集分析,但是也肯定见过公司或者一些文章里面写到他们做了GO分析和KEGG pathway分析。那么这两个东西到底是什么?

对于每个基因而言,其基本的功能基于他们的蛋白结构域以及研究的文献已经可以大致的知道一个基因具有什么样子的功能了。GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。

go语言数据分析展示(GO分析和KEGG分析都是啥)(3)

go语言数据分析展示(GO分析和KEGG分析都是啥)(4)

3 GO、KEGG和富集分析有什么关系呢?

通过上面的解释,我们知道,其实GO和KEGG是两个数据库,里面有每个基因相关的功能信息,而富集分析就是一个把这些功能进行进行整合计算的算法。

GO和KEGG是基础,而富集是过程,最后得到的结果就是整合后的宏观的结果。

go语言数据分析展示(GO分析和KEGG分析都是啥)(5)

对于GO和KEGG基本上就是这些。但是对于富集分析,还是有不同的算法的。有时间我们就来简单的介绍一下基本的一些富集分析的算法。

,