如何通过一个概率密度判断相关性(通俗易懂解释概率论之)(1)

概率论中有两个数学算法「协方差」与「相关系数」,听起来很深奥,其实很简单,Challey将在本文中通过一个生活实例通俗易懂地解释这两个算法。

变量 A 与变量 B 有关系吗?

如果我们有身高和体重数据,我们想分析这两个变量之间的关系。答案是使用协方差和相关分析。

协方差

如何通过一个概率密度判断相关性(通俗易懂解释概率论之)(2)

协方差可视化

协方差用于确定两个变量是否相关。需要看的是这个值是正数还是负数。如果为正,则它们向同一方向移动(正协方差)。如果它是负的,则它们朝相反的方向移动(负协方差)。协方差值无法描述关系有多​强。

如何通过一个概率密度判断相关性(通俗易懂解释概率论之)(3)

协方差公式

在哪里:

两个变量 x 和 y 之间的协方差是每个项目的差异与其各自均值的乘积之和除以数据集中的项目数减一。

相关性

如果我们想知道两个变量之间的关系有多强,我们可以使用相关性。协方差值可能会有所不同,因为数字的规模也不同。因此,相关性被用作将值从 -1 到 1 的协方差归一化的结果。我们将协方差分别除以 x 和 y 的方差根,得到一个在 -1 到 1 之间变化的相关系数。

如何通过一个概率密度判断相关性(通俗易懂解释概率论之)(4)

相关公式

COV ( x, y ) = 变量xy的协方差σ 2 x = 变量x的样本方差σ 2 y = 变量y的样本方差

如何通过一个概率密度判断相关性(通俗易懂解释概率论之)(5)

相关系数的意义

结语

如何解释相关性?其实很简答:相关性的方向可以从其值得知,正或负。正相关意味着一个变量的增加导致另一个变量的附加值。反之则呈负相关。如果值接近 1 或 -1,则相关性很强。同时,越接近0,相关性越弱或不相关。

,