生信分析类研究,可以说是近两年火热的科研话题了。
随着大数据时代的来临,「拍脑门」想选题的时代已一去不复返,从「别人的数据中」挖掘出自己所需的研究核心已经是大势所趋。
更何况,据传说——做生信分析的人可以「不做实验」、「无需编程」、「坐在电脑前」、「轻松发文章」。
哇!想想都能笑出声来……
忍不住暗搓搓的摩拳擦掌一番,打开一篇生信文章,一窥其真容,看看能不能从中学上个一两招。
然后……就被文章里一大票花花绿绿的数据和图表实力劝退。
那么,作为一个生信分析的门外汉,如何才能从零开始读懂一篇生信分析的文章呢?
首先,请先跟笔者一起念一百遍:「读 SCI ,先读图」。
是的,没错,和其他类 SCI 文章的阅读方法一致,读懂一篇生信文章也是要从图开始。只有先知道作者都做了些什么东西出来,才能进一步去理解他的思维逻辑。
那么下面,大家就跟笔者一起看看生信分析研究中经常出现的几类图片,以及大概了解一下这些图片是想说明什么的吧 ~~Let’s Go!
韦恩图与 Upset plot:
集合的可视化
韦恩图大概是最容易看懂的一种生信图了,非常好理解,每个大圈就代表一个数据集,相交的部分表示多个数据集都有的元素。
这类图表,常常用于从高通量测序类分析中获取基因(组)的交叉集并进行可视化,经常见于生信分析文章最开始的初步筛选。
这里需要注意的是,常见的韦恩图大多只适用于 2-4 个数据集(再多就太难看了)。与其类型相同,但具有更多数据集的状况,研究者往往会采用花瓣图 (Flower plot,读图方式与 Venn 图相似) 或者 Upset plot(软件告诉我,它叫心烦意乱图…)来更清晰的展示他们的结果。
Upset plot 图主要由三部分构成:右上方的条图,左下方的条图和右下方的点阵图。
左下方的条图,展示的是数据集和他们包含的元素数目;右下方的点阵图,代表了它涉及到哪些数据集;右上方的条图,代表着他下方点阵图涉及到的数据所有集的交集中包含的元素数。
举个栗子:
右下方点阵图的单点,都代表着自身和自身取交集,就是集合中未和任何其他集合有交叉的元素的个数,也就是左边韦恩图中无交集部分。
再比如说 Fig. 1b 右上方条图第一列,代表着最下面三个集合中的交集的元素数目,以此类推。
Fig.1 a: Venn diagram; b: Upset plot
相互作用网络关系图
(Interaction network)
互作网络分析图,可以说是生信分析中 99% 会出现的一种图表,它长这样:
Fig.2 string 绘制蛋白互作网络图
(中心节点蛋白是需要重点关注的对象)
这样:
Fig.3 Cytoscape 绘制蛋白互作网络图
(双色一般红色代表上调,蓝色代表下调)
和这样:
Fig.4 Cytoscape 绘制基因相互作用网络图
它常常用来表达基因、蛋白、任何之间的交互作用。
不过呢,有一些作者会把他们在这一类图片中聚焦到的关键信息进行突出展示,让人很容易 Get 到关键信息;
而有一些作者,他根本没打算让你看懂。往往此类互作图上元素冗乱交杂,让人眼花缭乱,很难提取出有效信息。
这是有一些作者对相互作用网络分析的另一种应用方式——提取图片中数据进行分析。作者会先将图片中包含的信息,以数据包的形式导出,再通过设定高可信度分数、共表达等等条件,来剔除弱相关信息。
这种情况下,图片只是结果的具象化,分析还是通过量化数据来实现,遇到此种情况,大家就只能回去读一读和这部分相符合的结果描述,才能知道作者究竟想说点啥了。
Kaplan-Meier 曲线
预后分析图,也是肿瘤分析中最常出现的一类图片了。
而生信分析中的生存曲线图获取方式和普通临床研究中稍有区别,它的数据并非传统的流行病研究获得,而是可以直接从数据库中获取,但读图方式并没有本质区别。
平缓的生存曲线,表示的是更高的生存率/较长的生存期;陡峭的曲线,表示低生存率/短生存期。一般来说,生存曲线分析的基因位点通常在互作分析之后,结合统计分析,对前一步分析中获取的节点基因(Hub)进行进一步筛选,保留 p<0.05 结果进行展示。
Fig.5 Kaplan-Meier 曲线图
KEGG Pathway
有一些小可爱们会在生信分析最后见过下面这样的图片,一看就是:额……这是个啥?看起来好高端,好复杂啊!
Fig.6 KEGG 信号通路图
但其实,KEGG 通路分析图可以说是又好理解又好做,这里需要关注的是通路分析图中的标注红色小星星的基因。
这类图片(比如 Fig.6),展示的是和你输入的靶点基因相关的通路。
除了图上详细而缭乱的全部通路外,还有可以数据化展示所有相关靶点的表格形式,但是表达的意思都是一样的,即你发现的基因可能参与了什么样的调控机制。
当然,对于这一部分的结果,如果不做实验的人,是比较难理解具体的信号通路调控机制的。
但如果只是做粗浅分析的话,这类图需仅做一个展示就足够了,懂的人自然会懂(除非小可爱们打算在生信分析后,进一步对分析的结果进行实验研究验证,具体的读图的方式我们下次再进行详细的讲解)。
敲重点
重点来啦!从上述这一系列生信分析文章常见的图表中,我们可以基本理解到的是:
这类文章,往往是先从可靠的数据库中富集大量的相关生物信息,然后依据作者所设定的筛选指标,对不符合的信息进行剔除。
最终,聚焦到和作者研究内容相关的少数靶点基因(位点)之中,并对这些靶点基因(位点)可能参与的通路过程进行展示。
这也是贯穿传统生信文章的主旨套路:从数据挖掘到分析,最终得出几个理论上的关键靶点。
当然,如果在前期可靠的生信分析后,再加入各种临床、体内、体外实验验证,那就是一个更完整、更有依据的新研究开端了。
最后,祝大家读图愉快哟~
,