生物信息学需要生物统计的基础吗（生物信息学中常用的统计学知识）

单因素方差分析？多因素方差分析？协方差分析？，我来为大家讲解一下关于生物信息学需要生物统计的基础吗?跟着小编一起来看一看吧!

生物信息学需要生物统计的基础吗

单因素方差分析？多因素方差分析？协方差分析？

单样本t检验？配对样本t检验？独立样本t检验？

皮尔逊相关性检验？斯皮尔曼相关性检验？肯德尔相关性检验？

……

统计、分组，傻傻分不清楚！

导读：

每次做统计，都得找“谷哥”、“度娘”；不管学多久，就是记不住。但是，统计学是我们通向真理的大门，现代生信人不能缺乏基本的数理统计基础。小编在本文将简要回顾目前生物信息学中常用的统计学知识。

假设检验

假设检验（hypothesis test）又称显著性检验（significance test），就是根据总体的理论分布和小概率原理，对未知或不完全知道的总体提出两种彼此对立的假设，然后由样本的实际结果，经过一定的计算，作出在一定概率意义上应该接受的那种假设的推断。

假设检验的一般步骤：提出原假设H0和备择假设H1，确定适当的检验统计量和规定显著性水平α (一般为0.05)，然后计算检验统计量的值，查出临界值，确定拒绝域和接受域，最后作出统计决策包括参数假设检验和非参数假设检验，计算出抽样的P值，如果P值很小(一般阈值为0.01或0.05)，则拒绝H0接受H1。

参数检验：指对参数平均值、方差进行的统计检验。参数检验是推断统计的重要组成部分。当总体分布已知（如总体为正态分布），根据样本数据对总体分布的统计参数进行推断。

非参数检验：是在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

方差分析

方差分析是一种特殊的假设检验，是判断多组数据之间平均数差异是否显著的。

单因素方差分析：某些研究中，需要研究的因素只有一个，这一因素可以有几个不同的水平，我们的目标就是要看看那这些水平的影响是否相同。为了在有随机误差的情况下进行比较，各水平都应有一定数量的重复。一个因素，一个因变量。

多因素方差分析：实验研究中，受试对象可能同时接受多个不同的处理因素。多个因素，一个因变量。

协方差分析：研究方差分析模型与回归模型的一种线性模型。有多个变量同时对因变量（y）产生影响，我们想分析其中的几个对因变量的影响，就需要排除另外变量造成的影响。协方差分析就是把另外的变量作为协变量（covariate，连续变量），其他的作为自变量（independent，分类变量）；把协变量转换成相等的（排除其影响），看自变量对因变量是否还有显著影响。

相关性分析

相关性分析是研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。

皮尔森相关性分析：是一种参数方法，是测量线性相关变量之间关系程度的最广泛使用的相关统计量。适用条件为所有变量都是连续型变量、观察值匹配、数据在变量之间需要匹配对应、待检验的样本分布接近满足正态分布、无异常值、两个变量之间是直线关系。

斯皮尔曼相关性分析：通常也叫斯皮尔曼秩相关系数。“秩”，可以理解成就是一种顺序或者排序，那么它就是根据原始数据的排序位置进行求解。它是一种非参数方法，对数据分布没有要求，用于测量两个变量之间的关联程度。

肯德尔相关分析:是一个非参数检验，用于衡量两个变量之间依赖的强度，对数据分布没有要求，需要满足的假定和斯皮尔曼秩相关系数相同。

适用性来说，肯德尔>斯皮尔曼>皮尔森，在考察两两变量间相关关系时，应了解两变量的变量类型以及是否有正态性，然后决定使用哪个系数。比如，当X1和X2都是连续性数值变量，如果数据具有正态性，此时首选肯德尔相关系数，如果数据不服从正态分布，此时可选择斯皮尔曼和肯德尔系数。

回归分析

回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

聚类分析

聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。

降维分析

我们在研究某些问题时，需要处理带有很多变量的数据。变量和数据很多，但是可能存在噪音和冗余，因为这些变量中有些是相关的，那么就可以从相关的变量中选择一个，或者将几个变量综合为一个变量，作为代表。用少数变量来代表所有的变量，用来解释所要研究的问题，就能从化繁为简，抓住关键，这也就是降维的思想。目前生物信息常用的三种方法为PCA、LDA和t-SNE。

生存分析

生存分析是对生存资料的分析，是研究生存时间的分布规律，以及生存时间和相关因素之间关系的一种统计分析方法。

生存分析中我们不仅关心是否发生结局，还会关心结局发生的时间，是否发生结局及时间这两个数据共同组成了生存分析的因变量(Y)。

对于结局，有两种情况：发生和未发生。一般把发生结局事件标为1，未发生结局事件标为0；未发生结局事件的数据又称为删失数据或截尾数据。

对于时间，当发生结局时，时间一列应是结局发生的时间，而未发生结局时，时间就是最后一次随访成功的时间。

生存分析使用的方法：

Kaplan-Meier：根据生存时间分布，估计生存率以及中位生存时间，以生存曲线方式展示，从而分析生存特征，一般用Kaplan-Meier法，还有寿命法。

Log-rank：通过比较两组或者多组之间的的生存曲线，一般是生存率及其标准误差，从而研究之间的差异，一般用log rank检验。

Cox proportional hazards regression：用Cox风险比例模型来分析变量对生存的影响，可以两个及两个以上的因素，很常用。

所以一般做生存分析，可以用KM（Kaplan-Meier）方法估计生存率，做生存曲线，然后可以根据分组检验一下多组间生存曲线是否有显著的差异，最后用Cox风险比例模型来研究下某个因素对生存的影响。

敲黑板划重点—举例总结

“纸上得来终觉浅”，大家还是要多加练习与应用~