数值数据是一种以数字表示的数据类型,而不是自然语言描述。有时称为定量数据,数值数据总是以数字形式收集。数值数据与其他数字形式数据类型的区别在于它能够对这些数字进行算术运算。

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(1)

数值型数据应用方法

应用方法基于描述性统计分析,主要方法有以下几种。

次数分布和直方图

我们以天津的少儿英语培训机构举例来说。数据来源 教育宝,使用爬虫抓取机构的名称和口碑。

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(2)

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(3)

假设这100家机构入住到同一所3层大楼中,我们依照口碑如何进行楼层的划分?(虽然这种方式不太合理)

楼层

口碑范围

入驻商家数量

3

3-3.8

35

2

3.9-4.3

45

1

4.4-4.9

22

这种叫做 分组,编程语言里称作 聚合。每一层作为一个分区,称作

可以尝试计算一下每个组的一个占比情况,也称作相对次序。

相对次序 = 所属组别的个数 / 数据总数

口碑分组

组中值

次数

相对次数

3-3.8

3.4

35

34.31%

3.9-4.3

4.1

42

41.12%

4.3-4.9

4.6

22

24.57%

依据这个次序分布表可以制作直方图,进行数据的可视化,表示数据间占比的情况。

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(4)

平均数

算数平均数

几何平均数

中位数

排序后处于中间位置上的值。

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(5)

- 中位数的应用,例如平均某城市平均工资是6000,但是3、4K的工资占绝大多数,这是为什么?

标准差

标准差表示一组数据中 平均离散程度的指标 。 标准差的数据区间为 [0, ∞] 。

例如两个球队某场比赛中打成平手,数值分布如下,是否能看出来哪队的平均势力更强一些?

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(6)

标准差的计算公式如下:

以未分组的情况举例,因为两队的数据相互独立。

A队 = [ 38 ,73 ,86 ,90 ,111 ,124 ]

B队 = [ 71 ,84 ,85 ,89 , 90 , 103 ]

通过计算得到结果为 A组 = 27.5 ,B组 = 9.5 。

推断统计和描述统计

推断统计用于根据从样本群体中收集的数据对大量群体进行预测或推断。

数值数据类型离散数据

离散数据表示可数项,可以采用数字和分类形式,具体取决于使用情况。采用可以分组到列表中的值,其中列表可能是有限的或无限的。 无论是有限的还是无限的,离散数据都采用从 1 到 10 或从 1 到无穷大的数,这些数组分别是可数有限和可数无限的。

连续数据

表示测量值的数值数据,值被描述为实数线上的间隔,而不是计数。例如 5分评分系统中的累积平均绩点(CGPA)将一等学生定义为 CGPA 低于4.50 - 5.00,二等高为3.50 - 4.49,二等低为2.50 - 3.49,三等学生为 1.5 - 2.49,通过为 1.00 - 1.49,失败为 0.00 - 0.99,以此类推

连续数据可以细分为两种类型,即间隔和比率数据。

数值数据特征

数据分析的基本方法和技巧(入行数据分析要知道什么是数值型数据)(7)

,