数据库产品经理需要掌握的技能(数据产品经理必修课)(1)

我们时常能够听到正相关和负相关的说法,那么究竟怎么样判别两组数据是正相关还是负相关呢?是否还可以采用我们之前说到的卡方(X平方)呢?显然不行,因为卡方的最小值是0,而最大值是1,顶多只能决定是相关还是不相关,根本做不到正负这么细节的情况;其次,我们之前也说过,卡方是用在分类的数据类型上的,而对于连续型的数据是不适用的。

不用焦躁,解决方法马上奉上。这里主要介绍三种方法,这三种方法分别是三位大神发明的,他们分别叫Pearson、Spearman以及Kendall,他们的相似点都是使用一个值表示他们是否相关,而且这个值取值都在-1到1之间,1表示正相关,-1表示负相关。但是他们的解决方法各不相同,下面一一介绍。

P:对于Pearson来说,他求解的是相关系数。整个计算过程和我们高中时候计算向量的夹角公式差不多,只不过在计算前需要把每组数据减去其均值(也成为数据居中)。

S:对于Spearman来说,他求解的是Spearman Rank,翻译成中文叫“S老头的秩”,秩的意思似乎有些文邹邹的,但是当你用其组词,你会发现你可以组出秩序这个词,因而这个词也暴露了其解决的方法,即使用数据的排列顺序来获得最终的计算结果。S将数据重新按照由大到小的顺序进行排列,然后计算两组数据间排位的绝对差值,最终使用一个公式来进行计算,把结果限定在-1到1之间。

K:K与S很像,其最终的值称为Kendall Rank,即“K老头的秩”,因而也不言而喻的采用了数据的排列顺序来获得最终的计算结果。但是其和S的区别在于,S强调的是位置的绝对值变动,而K强调的则是相对的位置顺序。

由于这三个计算对于非统计专业来说并不太重要,因而不要求产品经理们掌握。如果你爱知求真,为了成全你详细的计算过程可以参考下面的链接。

http://blog.sciencenet.cn/home.php?mod=space&uid=801621&do=blog&id=688307

对于Kendall的计算,则看看百度百科就完全可以了。

,