对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。首先讲解分布分析
分布分析能揭示数据的分布特征和分布类型。对于定量数据,我们想要了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性数据,可用饼形图和条形图直观地显示分布情况。
定量数据的分布分析对于定量变量,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照一下步骤:
-
求极差;
-
决定组距和组数;
-
决定分点;
-
列出频率分布表;
-
绘制频率分布直方图;
遵循的主要原则有:
-
各组之间必须是相互排斥的;
-
各组必须将所有的数据包含在内;
-
各组的组宽最好相等;
下面结合具体数据运用分布分析对定量数据进行特征分析:
(1)求极差
极差=最大值-最小值=3960-45=3915(元)
(2)决定组距和组数
这里根据业务数据的含义,可取组距为500,组数=极差/组距=3915/500=7.83
(3)决定分点
根据组数和组距,可确定以下的分布区间:
(4)列出频率分布表
根据分组区间可制作出频率分布表。其中,第1列将数据所在的范围分成若干组段,其中第一个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第1个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列示累计频率,是否需要计算该列视情况而定。
(5)绘制频率直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,可绘制成以下频率分布直方图:
定性数据的分布分析
对于定性变量,常常根据变量的分类类型来分组,可以用饼形图和条形图来描述定性变量的分布。
饼形图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼形图分成几个部分,每一部分大大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。
饼形图
条形图
,