大数据是多种知识领域的集合,而统计是大数据的基础,没有统计基础,你永远无法知道大数据里正态分布、贝叶斯算法、神经网络这些高深名词背后的真正含义。因此,从现在开始先进入统计学基础知识的学习。

什么是统计?

想知道为什么你在京东上浏览的商品信息,能在头条上也能看到吗?想知道互联网的广告商们为什么能够知道你某段时间想要什么并进行精确的广告投放吗?抛开技术的层面不说,这里面蕴含了深奥的统计学知识。

统计是这样一些数字:它们通过某种有意义的方式对原始事实和数字进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。这里的数据指的是:我们能够根据其做出结论的事实或数字。浏览网页的历史记录可以是统计的数据,每天吃什么喝什么也可以是统计的数据。

统计的研究过程

  1. 搜集数据。统计的根本在于数据,搜集数据的方法包括:查看先有数据源、做实验或做调查。

  2. 分析。搜集到数据后,就能进行分析,得出统计量,你可以计算事件概率,预测发生某些事件的可能性,也可以了解某些结果的可信度。

  3. 下结论。完成数据分析后,就可以下结论、做预测了。

统计资料的图形信息化

  • 散点图

  • 也称XY图,用于比较成对的数值,是用不同位置的点来描述数据的一种图形。它经常被用来研究两种变量之间的相关关系,是探索数据之间的关系形态及关联程度常用的一种图形,它通常用于比较跨类别的聚合数据,对于处理值的分布和数据点的分簇,散点图都很理想。

    统计学原理学习通 每天一点统计学(1)

    用宽度相同的条形的高低或长短来表示数据变动特征的。图形宽度不表示数据大小,只要选择与高度成恰当比例即可。使用条形图的主要目的是用于对比,可以比较不同时间、不同地区、不同种类统计数据之间的差别,其具体表现方法有纵置式、横置式,有单条式也有复条式和分段式。

    统计学原理学习通 每天一点统计学(2)

    也是用条形来说明统计资料的。它与条形图的区别是:绘制直方图的数据必须是定量数据,即它的横坐标应是连续的定量变量,而不能像条形图那样间隔排列。因此,直方图的条形宽度是由数据决定的,而不像条形图那样由美观决定。直方图也是用于对比的,但主要是用来比较分组资料间的数据差距的,或者说是比较数据的分布状况。

    统计学原理学习通 每天一点统计学(3)

    是以图形面积的的大小、圆内扇形个数多少或圆内各扇形面积大小来表示统计资料的图形。该图形主要用于描述数据内部的结构,有时也用于比较。圆内扇形面积的划分是根据圆的面积公式来计算。

    统计学原理学习通 每天一点统计学(4)

    是利用曲线的升降来说明定量变量数据的图形。它具有绘制简便、显示资料直观等特点,在实践中有着广泛的应用。线性图的种类很多,下面介绍两种经常使用的线性图形。

    动态曲线图,动态曲线图就是将数据按照实践变化的先后顺序,用点、线连接的方法绘制的线形图。主要用来放映在一段时间内数据发展变化的情况。

    统计学原理学习通 每天一点统计学(5)

    频数分布图。频数分布图是用曲线的升降高低表明数据的分布特征。图形的纵坐标可以是频数也可以是频率,横坐标是分组的变量。在进行分析和研究数据特征时,经常绘制频数分布图来表示数据的集中趋势和偏度。

    统计学原理学习通 每天一点统计学(6)

    可以直接说明“大于”或者“小于”某值的数据有多少。在累计分布中应用最广泛的就是洛伦茨曲线。是美国经济、统计学家洛伦茨根据意大利经济学家柏拉图提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。

    统计学原理学习通 每天一点统计学(7)

    ,