常用的数据统计方法（非连续性数据的两种处理方式）

本文根据刘鸿优的讲座视频整理而成，文稿未经专家本人审阅。

作者简介：

刘鸿优，华南师范大学体育科学学院教授/博士研究生导师，“爱思唯尔(Elsevier)中国高被引学者（体育学2020/2021）”，中国足球协会超级联赛技术调研组成员，广东省和华南师范大学高层次人才计划入选者。博士毕业于西班牙马德里理工大学身体锻炼与体育科学学院，主要研究方向为足球比赛表现与训练监控、运动表现分析。近年来，公开发表国际期刊论文30余篇、中文核心期刊论文20余篇，论文被引用1300余次（谷歌学术数据）。主持国家社会科学基金、广东省科技厅/教育厅课题、广州市社会科学基金等国家/省/市厅级课题多项。目前担任《Journal of Sports Sciences》等20余份国际期刊，《中国体育科技》等多份国内期刊特邀审稿人、评委。曾任波兰足球乙级联赛、西班牙足球丙级联赛俱乐部助理教练、表现分析师。

在了解了“连续型数据”的统计方式（请见《“连续型数据”的描述性统计》）之后，本节，我们继续与大家分享“非连续性数据”统计中的相关问题。

一、“单变量数据”做“简单描述”

对于“非连续性变量”，毫无疑问，我们只能做频数统计和比率统计，不可能计算“平均值”和“标准差”，也不可能计算“中位数”和“分位数”。比如“性别”这个变量，男性与女性的“频数”分别为23和19，“比率”分别为54.8和45.2。又如，“专项”这个变量，篮球、排球和足球的“频数”分别为12、13、17，“比率”分别为28.6、31和40.5。

“离散型变量”或“非连续性变量”的“描述数据”，可以用饼状图或柱状图来展示。柱状图可以做“频数”，也可以做百分比的分布。如果是“单选题”，我们可以做饼状图。但如果是“多选题”，那千万不要做饼状图，而一定要做柱状图。因为，有的个体可能既是排球专项又是篮球专项，有的人选择了篮球和足球的双专项。如果我们用饼状图去做，就会发现最后加起来不等于百分百。

也就是说，比如整个班级共有42个人，如果我们做饼状图，并且这个选择是“单选题”的话，那么13 12 17=42。但如果是多选题的话，由于有的人是双专项，就可能出现这种情况：足球专项的人可能有23个，篮球专项的人可能有24个，或者说15个，排球专项的人可能有16个。我们最后将数据相加，所得结果可能是五十多个。这样一来，我们做饼状图就很不好。所以，“多选题”一定要做柱状图。

上述这个例子是“单变量”，也就是“简单描述数据”。之所以把它叫作“简单描述数据”，是因为我们只是对单个变量的特征进行了描述。“身高”“体重”“性别”或者“专项”，这些都是单个变量。我们每一个表格或者说每一个“均值”加减“标准差”，都只是反映着单个变量的特征。显然，只是做简单的“描述数据”是不够的。比如说，我们想知道广东地区所有的足球辅修班，或师范类大学的辅修班，或某个体育院校的辅修班学生的专项以及性别构成，或者他们的平均身高、体重怎么样。这没问题，我们可以这样去做。但如果我们想做一个研究，那显然不够。因为我们只是描述了他们的平均身高、体重怎么样，但这些却没有足够的科学研究价值。

二、“多变量数据”探讨“效果”

如果我们要得出足够的科学研究价值，就一定要加入对“效果”的探讨。所谓“效果”的探讨，就是对因果关系的探讨。这其中就涉及到“自变量”和“因变量”之间的相互关系。这才进入了科学研究的层面。之前的“描述”只是给人展示一定的特征，用这些数据去做报告没有问题。但如果我们要揭示这些数据背后特定的研究意义或科学意义的话，那一定要通过“效果”来揭示所谓的“效果”，即“谁”对“谁”造成了什么影响，或者“谁”跟“谁”有什么相互的关系，这就叫“效果”。所谓的“效果数据”一定是“多变量数据”。平时的授课中，我通常只讲两个变量，一个是“自变量”，一个是“因变量”。不讲多个“自变量”与多个“因变量”的问题，因为那会涉及到非常复杂的模型、“主效应”“随机效应”“固定效应”“协同变量”“调节变量”以及“修饰变量”等等。因此，这里我们只讲两个变量——“自变量”与“因变量”之间的相互关系。

我们知道，变量就分为“连续性变量”与“离散型变量”（或“非连续性变量”）这两种。“自变量”可以是“连续型变量”，也可以是“非连续性变量”。“因变量”同样如此。当我们要探讨“自变量”和“因变量”之间的关系的时候，就会涉及到下表（表1）中的内容，它展示了我们选择统计学方法或者选择“效果数据”的依据。

常用的数据统计方法（非连续性数据的两种处理方式）(1)

表1

我们来看“自变量”是“非连续性变量”，而“因变量”是“连续型变量”这一情况。所谓“因变量”是“连续型变量”，举个例子，我们想探讨“不同性别的人身高是否有差别”的时候，“性别”这个自变量就是“非连续性变量”，而“身高”这个因变量就是“连续型变量”。在探讨这些差别的时候，就是要用到“均值差异”。如果“自变量”和“因变量”都是“连续型变量”，比如我们想知道身高和体重之间的相互关系的时候，“自变量”（身高）与“因变量”（体重）都是“连续型变量”，如果我们探讨两个“连续型变量”之间的相互效果，这个时候就会涉及到“斜率”和“相关”。

一旦我们的“因变量”是“非连续性变量”（如性别），那么不管“自变量”是“非连续性变量”还是“连续型变量”，我们都只能去探讨“比率差异”或者“比值比”“比率”“风险比”和“即时风险比”。比如，我们想知道男生和女生会不会选择不同的专项，他们的专项分布会不会有差别。或者反过来说，对于不同的专项，男生和女生的性别分布会不会有差别，这就是“比率差异”。不同专项的性别分布或者不同性别的专项分布有没有差别，其实是同一个概念。这就涉及到“自变量”和“因变量”都是“非典型变量”的情况，这个时候我们就要计算“比率差异”或者说“比率比”等。

如果“自变量”是“连续型变量”，比如，是否因为身高越高，导致选择篮球的概率越高？这个时候，身高作为“自变量”，“连续型变量”（专项）作为“因变量”，就变成了“非典型变量”。所以，这时也要去探讨“比率比”“比值比”“比率差异”等，也即是回答了刚才的问题：身高越高的人越有可能选择篮球吗？这就是“连续型变量”作为“自变量”，“非连续性变量”作为“因变量”要探讨的效果。

请尊重原创，未经许可，拒绝转载

常用的数据统计方法（非连续性数据的两种处理方式）

最新推荐

热门推荐