描述统计
SPSS专业汉化版下载地址:
http://support.spss.com/ProductsExt/Statis...dex.html
一、试验目的与要求
统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本本试验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、试验原理
确定所要分析的变量,例如 年龄
在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图2.2所示,选择统计输出选项。
结果输出与分析
点击Frequencies 对话框中的“OK”按钮,即得到下面的结果。
表2.4描述性统计量
Statistics
Gender
N |
Valid |
474 |
Missing |
0 |
表2.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表2.5 Gender频数分布表
Frequency | Percent | Valid Percent | Cumulative Percent | ||
Valid | Female | 216 | 45.6 | 45.6 | 45.6 |
Male | 258 | 54.4 | 54.4 | 100.0 | |
Total | 474 | 100.0 | 100.0 |
表2.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,Valid Percent是以有效样本量为分母计算的百分比,Cumulative Percent是累计百分比。
图2.5变量Gender的条形图,图2.6变量Gender的饼图。
2.描述统计(Descriptives)[1]
SPSS的【描述】命令专门用于计算各种描述统计性统计量。本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。具体操作步骤如下:
选择菜单【分析】→【描述统计】→【描述】,如图2.7所示
[1] 描述统计主要对定距型或定比型数据的分布特征作具体分析。
将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀z。标准化计算公式:
单击【选项】按钮,如图2.8 所示,选择需要计算的描述统计量。各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
在主对话框中单击ok执行操作。
结果输出与分析
在结果输出窗口中给出了所选变量的相应描述统计,如表2.6所示。从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。为了验证这一结论,可以利用Frequencies命令画出变量z的直方图,如图2.9
表2.6描述统计量表
Descriptive Statistics
N | Mean | Std. | Skewness | Kurtosis | |||
Statistic | Statistic | Statistic | Statistic | Std. Error | Statistic | Std. Error | |
前两大股东持股比例之比 | 315 | 102.865 | 199.199746 | 4.168 | .137 | 22.404 | .274 |
前五大股东持股比例的平方和 | 315 | .51836 | .1496003 | .602 | .137 | -.318 | .274 |
资产负债率 | 315 | .4677 | .16773 | -.165 | .137 | -.414 | .274 |
Valid N (listwise) | 315 |
3.探索分析(Explore)
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。
因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都,表示输出图形及描述统计量。
选择【统计量】按钮,选择想要计算的描述统计量。如图所示
对所要计算的变量的频数分布及其统计量值作图 打开“Plots对话框”,出现如上图。
¨结果的输出与说明
(1)Case Processing Summary 表
在Case Processing Summary 表中可以看出female 有216个个体,Male258个个体,均无缺失值。
(2)Descriptives 表
Descriptives
Gender | Statistic | Std. Error | ||
Current Salary | Female | Mean | $26,031.92 | $514.258 |
95% Confidence Interval for Mean | Lower Bound | $25,018.29 | ||
Upper Bound | $27,045.55 | |||
5% Trimmed Mean | $25,248.30 | |||
Median | $24,300.00 | |||
Variance | 57123688.268 | |||
Std. Deviation | $7,558.021 | |||
Minimum | $15,750 | |||
Maximum | $58,125 | |||
Range | $42,375 | |||
Interquartile Range | $7,013 | |||
Skewness | 1.863 | .166 | ||
Kurtosis | 4.641 | .330 | ||
Male | Mean | $41,441.78 | $1,213.968 | |
95% Confidence Interval for Mean | Lower Bound | $39,051.19 | ||
Upper Bound | $43,832.37 | |||
5% Trimmed Mean | $39,445.87 | |||
Median | $32,850.00 | |||
Variance | 380219336.303 | |||
Std. Deviation | $19,499.214 | |||
Minimum | $19,650 | |||
Maximum | $135,000 | |||
Range | $115,350 | |||
Interquartile Range | $22,675 | |||
Skewness | 1.639 | .152 | ||
Kurtosis | 2.780 | .302 |
(3)职位员工薪水直方图显示
(4)茎叶图描述
茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(Stem Width),即茎叶所表示的实际数值的近似值。
Current Salary Stem-and-Leaf Plot for
gender= Female
Frequency Stem & Leaf
2.00 1 . 55
16.00 1 . 6666666666777777
14.00 1 . 88889999999999
31.00 2 . 0000000000000111111111111111111
35.00 2 . 22222222222222222222233333333333333
38.00 2 . 44444444444444444444444444555555555555
22.00 2 . 6666666666677777777777
17.00 2 . 88888899999999999
7.00 3 . 0001111
8.00 3 . 22233333
8.00 3 . 44444555
5.00 3 . 66777
2.00 3 . 88
11.00 Extremes (>=40800)
Stem width: 10000
Each leaf:1 case(s)
(5)箱图
图中灰色区域的方箱为箱图的主体,上中下3 条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中。
方箱中的中心粗线为中位数。箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。
四、备择试验
完成下列试验内容,并按试验(1)所附试验报告的格式撰写报告。
1.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。
表2.7 某班16位学生的身高数据
学号 | 性别 | 身高(cm) | 学号 | 性别 | 身高(cm) |
1 | M | 170 | 9 | M | 150 |
2 | F | 173 | 10 | M | 157 |
3 | F | 169 | 11 | F | 177 |
4 | M | 155 | 12 | M | 160 |
5 | F | 174 | 13 | F | 169 |
6 | F | 178 | 14 | M | 154 |
7 | M | 156 | 15 | F | 172 |
8 | F | 171 | 16 | F | 180 |
2.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果作出说明。
表2.8 18台笔记本电脑重量表
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
重量 | 1.75 | 1.92 | 1.59 | 1.85 | 1.83 | 1.68 | 1.89 | 1.70 | 1.79 |
序号 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
重量 | 1.66 | 1.80 | 1.83 | 2.05 | 1.91 | 1.76 | 1.88 | 1.83 | 1.79 |