数据分析基础教程(数据分析基础)(1)

1、数据分析是什么?

数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让企业获得持续竞争的优势。

2、为什么要做数据分析?

数据分析可以把隐藏在大量数据背后的信息提炼出来,总结出数据的内在规律。代替了以前那种拍脑袋、靠经验做决策的做法,因此越来越多的企业重视数据分析。具体来说,数据分析在企业日常经营分析中有三大作用,即现状分析、原因分析、预测分析。

2.1 现状分析

现状分析可以告诉业务在过去发生了什么。一般通过日常报表来实现,如日报、周报、月报等形式

1)现阶段的整体运营情况。通过各个关键指标的表现情况来衡量企业的运营情况,掌握企业目前的发展趋势。

2)各项业务的构成。

2.2 原因分析

原因分析可以告诉某一现状为什么会存在。一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析

2.3 预测分析

预测分析告诉未来可能发生什么。一般通过专题分析来完成,通常在制定企业季度、年度计划时进行

3、数据分析究竟在分析什么?

数据分析重点在分析,而不是在工具。

3.1 总体概览指标

总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。如当日销售额为60万。

经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。

3.2 对比性指标

对比性指标是说明现象之间数量对比关系的指标,常见的是同比、环比、差这几个指标。

同比是指相邻时间段内某一共同时间点上指标的对比,环比就是 相邻时间段内指标的对比;差就是两个时间段内的指标直接做差, 差的绝对值就是两个时间段内指标的变化量。

3.3 集中趋势指标

集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平,通常用平均指标来表示。包含平均值、中位数、众数、分位数。

3.4 离散程度指标

离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。全距(又称极差)、方差、标准差等几个指标用于衡量数值的离散情况。

3.5 相关性指标

相关系数反应数据整体内的变量之间存在什么关系,一个变化时会引起另一个怎么变化。相关系数用r表示。

数据分析基础教程(数据分析基础)(2)

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。关于相关系数需要注意以下几点。● 相关系数r的范围为[-1,1]。● r的绝对值越大,表示相关性越强。● r的正负代表相关性的方向,正代表正相关,负代表负相关。

3.6 相关关系与因果关系

相关关系说明两件事情有关联;因果关系是说明一件事情导致了另一件事情的发生。

4、数据分析的常规流程

数据分析基础教程(数据分析基础)(3)

4.1 熟悉工具

EXCEL、SQL、Python、BI等软件工具

4.2 明确目的

希望通过数据分析得出什么结论。

4.3 获取数据

● 需要什么指标。 ● 需要什么时间段的数据。 ● 这些数据都存在哪个数据库或哪个表中。 ● 怎么提取,是自己写Sql还是可以直接从ERP系统中下载。

4.4 熟悉数据

熟悉数据类型,是否满足分析。

4.5 处理数据

处理异常数据,包含:异常数据、重复数据、缺失数据、测试数据。

4.6 分析数据

围绕数据指标展开分析,常采用的方法是下钻法。

4.7 得出结论

通过分析数据,得出结论。

4.8 验证结论

数据分析和实际业务相联系,去验证结论是否正确。

4.9 展示结论

,