#程序员# #统计学# #机器学习#

最近一直在读《赤裸裸的统计学》这本书,作为一本统计学的入门读物,非常浅显易懂的让人明白统计学是什么,能用来解决哪些具体的现实问题,还举了大量的例子,提供了计算思路。

这里我把自己的读书笔记分享一下。

## 民意测验与误差幅度

民意测验是统计推断的另一种形式,就是基于从某个人口群体中所抽取的人口样本的观点所做出的推断。其基础就是“中心极限定理”。

误差和置信区间:如,民意测验结果有95%的概率在实际情况正负3%的范围内浮动。

标准误这个指标所要传达的就是:不同样本的平均值和不同民调结果的离散程度。

百分比的标准差的计算公式

统计学敏感系数(赤裸裸的统计学-)(1)

假如500名选民里有53%投票给了共和党,那么其标准差:

统计学敏感系数(赤裸裸的统计学-)(2)

解释是:我们有68.2%的把握说共和党的支持率是

统计学敏感系数(赤裸裸的统计学-)(3)

要让可信度提升就必须扩大误差幅度。比如,我们知道,根据正态分布,我们有95.4%的把握预测值会落在2个标准差以内,就是

统计学敏感系数(赤裸裸的统计学-)(4)

。另外,当样本数量增大时,标准差会减小。当选民增加到2000人,民主党得票率是52%时,其标准差就是

统计学敏感系数(赤裸裸的统计学-)(5)

甚至我们还可以继续扩大我们的把握,就是我们有 99.7%的把握认为预测值在3个SE误差范围内,即

统计学敏感系数(赤裸裸的统计学-)(6)

.

,