01
Pearson相关系数的问题
虽然看起来,Pearson相关系数简直是完美无瑕了!其实不然,Pearson相关系数也存在一些问题。
首先,Pearson相关系数的前提条件是要两个变量满足近似正态分布。这要求在计算相关系数前,要作正态性检验。而且,多数情况下变量不一定满足正态分布的,这就无法使用Pearson相关系数。
其次,Pearson相关系数是在方差和协方差的基础上得到的,对离群值比较敏感。如下图所示的散点图,除右上角一个离群值外,其余数据点呈明显的线性相关关系,但真实计算出来的Pearson相关系数r=-0.283,P=0.214,显然Pearson相关系数无法正确衡量X和Y的线性相关性。
所以,为了解决这几个问题,后来数据科学家们又定义了其它几种相关系数公式。
02
相关系数种类
常用的相关系数主要有三种:Pearson相关系数、Spearman秩相关系数和Kendall τ相关系数。
03
Pearson相关系数
04
Spearman秩相关系数
Spearman Rank相关系数,即斯皮尔曼秩相关系数(Spearman Rank Order Correlation Coefficient,简称SROCC),是英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来的。
在Peaarson相关系数中,所有的数据都要参与公式计算,特别是离群值的存在,导致相关系数的计算不准确。为了避免离群值的影响,在Spearman等级相关系数公式中,并不是采用原始的数据对(xi,yi)来计算,而是利用数据的秩对(Ui,Vi)来定义相关系数。将Pearson相关系数的计算公式中的x和y用相应的秩代替即可得到Spearman相关系数,其公式如下:
显然,Spearman秩相关系数是利用两变量的秩大小作线性相关分析,对原始变量的正态分布不作要求,属于非参数统计方法;而且采用秩来计算,避免离群值对相关系数的影响,适用范围要广。
05
Kendallτ相关系数
Kendall Rank相关系数,即肯德尔秩相关系数(KROCC),常用希腊字母τ(tau)表示,也是用于度量定序型变量间的线性相关关系,与Spearman秩相关系数基本类似。
但与Spearman相关系数不同的是,Kendallτ相关系数使用秩的同序对(concordant pairs)数目U和异序对(discordant pairs)数目V来计算相关系数。
什么叫做同序对?即两个变量的秩同时增大的秩对。
如下所示,假定变量X和变量Y的秩如下,先将X秩按升序排列,然后观察Y秩,显然变量Y的秩随变量X的和失同步增大的Y的秩对有(2,3),(2,4),(2,5),(3,4),(3,5),(1,4),(1,5),(4,5),即同序对的数目U共有8对;而变量Y的秩未随变量X的秩同步增大的Y的秩对有(2,1),(3,1),即异序对V共有2对。
Kendall 相关系数公式有三个,
τa公式适用于数据集中不存在相同数值的情况(即秩是唯一的)。
τb公式适用于数据集中存在相同数值的情况(即秩有重复的)。如果数据集中不存在相同的数值,则τb公式等同于τa公式。
τc公式没有考虑相同数值带来的影响,适用于用表格表示的两变量间相关系数的计算。
Kendall检验是一个无参数假设检验,使用计算而得的相关系数去检验两个变量的相关显著性,其显著性检验的统计量为Z统计量,其数学定义为:
在样本容量n充分大时,Z统计量近似服从标准正态分布,即N(,1)。
06
相关系数选择
如上所述,这三种相关系数计算的公式和原理是不相同的。
Pearson相关系数,适用于连续型变量,且要求两变量呈正态分布,或接近正态分布,至少是单峰的对称分布。
Spearman秩相关系数,适用于定序型变量,或者不满足正态分布的连续型变量。
Kendallτ相关系数,适用场景与Spearman秩相关系数相同。
所以,当变量服从正态分布时,使用Pearson相关系数比其它系数要准确些。
Spearman相关系数和Kendall相关系数,是在数据的相对大小(等价于秩的相对大小)的基础上得到的,是一种更为一般性的非参数方法,对离群值更稳健(即受离群值影响较小),度量的主要是变量之间的同步增长变化关系。可以这么理解,即使不是线性相关,只要是单调变化关系都可以用Spearman相关系数和Kendall相关系数计算。
Kendallτ相关系数,主要描述的是两组数单调性特征,它不依赖于线性假说,任何一种单调变化(线性或非线性)的关系都可以采用Kendallτ来描述。
所以,在某种程度上,Spearman相关系数和Kendall相关系数比起Pearson相关系数来说更具有通用性。
,