数据库产品经理需要掌握的技能（数据产品经理必修课）

数据库产品经理需要掌握的技能（数据产品经理必修课）(1)

我们时常能够听到正相关和负相关的说法，那么究竟怎么样判别两组数据是正相关还是负相关呢？是否还可以采用我们之前说到的卡方（X平方）呢？显然不行，因为卡方的最小值是0，而最大值是1，顶多只能决定是相关还是不相关，根本做不到正负这么细节的情况；其次，我们之前也说过，卡方是用在分类的数据类型上的，而对于连续型的数据是不适用的。

不用焦躁，解决方法马上奉上。这里主要介绍三种方法，这三种方法分别是三位大神发明的，他们分别叫Pearson、Spearman以及Kendall，他们的相似点都是使用一个值表示他们是否相关，而且这个值取值都在-1到1之间，1表示正相关，-1表示负相关。但是他们的解决方法各不相同，下面一一介绍。

P：对于Pearson来说，他求解的是相关系数。整个计算过程和我们高中时候计算向量的夹角公式差不多，只不过在计算前需要把每组数据减去其均值（也成为数据居中）。

S：对于Spearman来说，他求解的是Spearman Rank，翻译成中文叫“S老头的秩”，秩的意思似乎有些文邹邹的，但是当你用其组词，你会发现你可以组出秩序这个词，因而这个词也暴露了其解决的方法，即使用数据的排列顺序来获得最终的计算结果。S将数据重新按照由大到小的顺序进行排列，然后计算两组数据间排位的绝对差值，最终使用一个公式来进行计算，把结果限定在-1到1之间。

K：K与S很像，其最终的值称为Kendall Rank，即“K老头的秩”，因而也不言而喻的采用了数据的排列顺序来获得最终的计算结果。但是其和S的区别在于，S强调的是位置的绝对值变动，而K强调的则是相对的位置顺序。

由于这三个计算对于非统计专业来说并不太重要，因而不要求产品经理们掌握。如果你爱知求真，为了成全你详细的计算过程可以参考下面的链接。

http://blog.sciencenet.cn/home.php?mod=space&uid=801621&do=blog&id=688307

对于Kendall的计算，则看看百度百科就完全可以了。

数据库产品经理需要掌握的技能（数据产品经理必修课）

最新推荐

热门推荐