什么用于描述正态分布的变异度(正态分布的应用)(1)

内容导入:

大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,介绍偏度的基本原理,包括偏度概念、作用、计算方式、判断标准、应用,再结合区域工资水平,探讨偏度在实际数据分析中的应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍峰度系数,欢迎大家关注。

概念介绍:

偏度的概念:

偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征,所谓非对称就是指左右的不一致。偏度(Skewness)亦称偏态、偏态系数。它是表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度(不理解没关系,这是统计学定义)。

偏度的计算公式:

什么用于描述正态分布的变异度(正态分布的应用)(2)

偏度的计算公式

偏度计算为三阶中心距除以三阶标准差,所谓中心距,就是距离数据中心的距离,数据中心一般是值数据的平均值,因此中心距就是每个数减去平均数的和,然后求平均,三阶就是在这个基础上求三次方。三阶标准差就是标准差的三次方,这样理解这个公式就简单了。

偏度的相关原理:

正态分布的偏度为0,两侧尾部长度对称。若以S表示偏度。

S<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长。

S>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长。

而S接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

什么用于描述正态分布的变异度(正态分布的应用)(3)

偏度的特点:

如果一组数据是对称的,则偏态系数 等于 0;

如果偏态系数大于1或者小于-1,称为高度偏态分布;

如果偏态系数在0.5~1 或-1~-0.5 之间,则认为是中等偏态分布。

偏度的偏向:

偏度系数=0,则分布对称;

偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;

偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。

偏度的应用:

S>0,数据左偏,高峰向左偏移,长尾向右延伸,均值小于中位数与众数,说明大数据多,大多数在平均值以上的水平,存在较小的离群值;

S<0,数据右偏,高峰向右偏移,长尾向左延伸,均值大于中位数与众数,说明小数据多,大多数在平均值以下的水平,存在较大的离群值;

数据结论一般为,该地区收入存在极大值,贫富差距大;地区发展水平低,大多数人收入在平均值以下等等。

大家,理论看着枯燥,我们准备了一个偏度介绍的小视频,给大家解解乏,帮助大家进行理解,大家如果感兴趣的话,可以关注我们的微信公众号进行观看。

综合应用场景:

接下来我们来看个实际的案例吧。

数据偏度:某地区随机50人的平均工资为

什么用于描述正态分布的变异度(正态分布的应用)(4)

请分析该地区的收入水平与发展情况。

代码计算过程

我们可以使用偏度来解释收入水平等状况,用python的计算过程如下。

import numpy as np

income=np.array([2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918,1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564,172,951,1683,888,2880,4000,3500,1000,1250])

求平均数 income_mean=np.mean(income)

求中心距 center_dis=income-income_mean

求标准差 sigma=np.std(income)

求平均3阶中心距 center_dis3=sum(np.power(center_dis,3))/len(income)

求标准差的3次方 sigma3=np.power(sigma,3)

求数据偏度 skewness=center_dis3/sigma3

print(skewness)#数据偏度为:1.424 偏度系数小于0,因此数据右偏

根据偏度的原理,S>0,数据左偏,高峰向左偏移,长尾向右延伸,均值小于中位数与众数,说明大数据多,大多数在平均值以上的水平,存在较小的离群值;因此,我们可以得出结论,该地区篇幅差距较大,收入水平低的人居多,大多数人在平均收入以下,可以推测,该地区区域发展不均衡,并且发展水平较低,因为发展水平高的地区,大多数人应该在中等水平。

各位还没有看懂的朋友,可以关注我们微信公众号观看视频,那里的解释更加精彩。

本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

大家好,有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

什么用于描述正态分布的变异度(正态分布的应用)(5)

海数据微信小程序

什么用于描述正态分布的变异度(正态分布的应用)(6)

海数据微信公众号二维码

,