分类数据是一组信息的集合。如果一个组织或机构试图获取其员工的生物数据,则生成的数据被称为分类数据。该数据被称为分类数据,因为它可以根据生物数据中存在的变量(例如性别、居住状态等)进行分组。

分类数据可以采用数值(例如“1”表示是,“0”表示否),这些数字没有数学意义,既不能将它们加在一起,也不能彼此相减。

数据分析分为哪4类(入行数据分析要知道什么是分类型数据)(1)

分类型数据应用方法次数分布图

依旧使用天津的少儿英语培训机构举例来说。数据来源 教育宝,使用爬虫抓取机构的名称和口碑。

数据分析分为哪4类(入行数据分析要知道什么是分类型数据)(2)

数据分析分为哪4类(入行数据分析要知道什么是分类型数据)(3)

假设这102家机构入住到同一所3层大楼中,我们依照口碑如何进行楼层的划分?(虽然这种方式不太合理)

楼层

口碑范围

类别转化

入驻商家数量

3

3-3.8

一般

35

2

3.9-4.3

45

1

4.4-4.9

较好

22

这种叫做 分组,编程语言里称作 聚合。每一层作为一个分区,称作

可以尝试计算一下每个组的一个的一个占比情况,也称作相对次序。

相对次序 = 所属组别的个数 / 数据总数

口碑分组

组中值

次数

相对次数

3-3.8

3.4

35

34.3%

3.9-4.3

4.1

42

41.1%

4.3-4.9

4.6

22

24.51%

根据分类的百分比可以制作一个条形图来表示。

数据分析分为哪4类(入行数据分析要知道什么是分类型数据)(4)

分类数据的类型标称数据

是一种用于命名变量而不提供任何数值的数据。这种数据类型源自拉丁语命名法 Nomen(意思是名称)是分类数据的子类别。

名义数据有时称为『标记』或『命名』数据。名义数据的示例包括姓名、头发颜色、性别等。

主要通过调查或问卷收集,这种数据类型是描述性的,因为它有时允许受访者自由输入回复。尽管这一特征有助于得出更好的结论,但有时也会给研究人员带来问题,因为他们必须处理如此多不相关的数据。

序数数据

这是一种具有固定顺序或比例的数据类型。这个顺序没有一个标准的尺度来衡量每个尺度中变量的差异。

序数数据示例包括:李克特量表、区间量表、错误严重程度、客户满意度调查数据等。这些示例中的每一个可能有不同的收集和分析技术,但它们都是有序数据。

分类数据特征

数据分析分为哪4类(入行数据分析要知道什么是分类型数据)(5)

,