生信分析报告中的热图怎么看?

那些红绿相间的图片代表什么?

图外侧那些细细的线条都是什么意思?

上次【小云解读生信图】给大家讲解了“火山图”怎么看,代表的是什么结果。“

基于大家的反馈还不错,领导决定保留这个新栏目。那么今天小云就接着给大家讲讲热图(Heatmap)的作用以及如何解读。

1、热图是什么?

热图是对实验数据分布情况进行分析的直观可视化方法,可以用来进行实验数据的质量控制和差异数据的具像化展示,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。还可以对数据和样本进行聚类,观测样品质量。热图有多种形式,但基本的元素是一致的。

例如图1中的2张热图,每个格子表示每个基因,颜色表示这个基因的上/下调,红色为上调,蓝色/绿色为下调。颜色越深代表这个基因的表达量越高。每行表示每个基因在不同样本中的表达量情况,每列表示每个样品中所有基因的表达量情况。

图中上面两条彩色的横条,是用颜色标识出实验的不同分组。比如图1A中,第一行的黄色表示肿瘤组织,蓝色表示正常组织;图1B中第一行的蓝色表示正常组织,粉色表示肿瘤组织。

图1A中上方树形图表示对来自不同实验分组的不同样品的聚类分析结果,图1A和B中左侧树形图表示对来自不同样本的不同基因的聚类分析结果。但是分组和聚类树形图在热图中不一定会出现,要根据研究需要决定是否加上。

怎么看数据分析图(分析报告中的热图)(1)


2、热图的作用是什么?

(1)呈现样本间或基因之间的聚类关系:

1)图2中的上方树形图就是对样本进行聚类,可以对数据质量进行控制:

如果样本来自于同一个组,组内个样本间的特征应该是相似的,那么在进行聚类的时候就很容易被聚在一起。通过样本的聚类可以观察到所收集的不同组别样本是否被聚类到一起了。如图2中的2个组之间存在着很大的差异,左侧组基因大多呈现下调,而右侧组相反。而且组内样本间的表达模式相似,说明组内样本间差异较小。

如果发现某一个/几个应该属于这一组的样本被聚类到其他的组了,或者某个样本的表达模式与本组内其他样本差异显著,那就说明这个样本本身的变异度很高,或者说在之前的样本采集或者测序过程中出了什么问题,这就需要考虑把这个异常样本剔除掉再进行分析,这也就实现了对数据的质量控制。

怎么看数据分析图(分析报告中的热图)(2)


2)基因之间的聚类:

图2中左侧树形图就是对基因的聚类,聚类可以观察到基因之间的关系,因为基因的上下游调控会导致连锁反应,一个基因的表达增加或减少可能会带动一系列基因的表达变化。那么从图中就可以看到这个连锁的相关性,也是就看到表达模式相似的一群基因被聚集在了一起。

当你关注样本/基因在检测到的表达量水平如何分类,相互之间的关系如何,那么可以选择聚类。可以选择:只在样本水平聚类、只在基因水平聚类或两者都进行。当然也可以选择不聚类。

(2)直观展示多样本多个基因的差异表达变化:

这个很容易理解,就是通过使用颜色(比如红色/绿色的深浅)来展示多个样本多个基因的表达量高低。但是有一个问题,那就是生信分析会得到成千上万的基因或蛋白,这样会导致热图的行数非常多,即使拿着放大镜也没办法在图片中分辨单个基因的情况。

那么就可以从数据中找出一些重点关注的基因绘制热图,这样能够清晰的向读者展示自己所研究的一些关键基因的表达情况,所以有些文章中的热图是这样子的(如图3)。


怎么看数据分析图(分析报告中的热图)(3)

总结

基本上每篇生信分析文章中都会有的热图,小云的解读有没有让生信小白们豁然开朗呀?还有问题的话欢迎给小云留言或私信哦,当然也可以跟小云说,你想看哪些生信图片的解读,小云非常乐意为您提供服务,欢迎咨询!

怎么看数据分析图(分析报告中的热图)(4)


推荐阅读:

添加小云公号云生信学生物信息学还可以领取免费科研资源大礼包!(内含:生信高分文献120 篇,单篇文献字数5000 ,篇篇干货,另外找小云还可以免费查询生信数据哦!)

,