我们总说,用数据说话,仿佛有了数据就有了真相,但数据就一定是靠谱的吗?

大数据时代赋予了我们可以对海量数据进行挖掘和分析的能力,强大的计算机可以通过分析数据发现重要的规律和结论。

但有时候我们会发现,有一些通过数据和计算发现的规律或结论却显得非常怪异:

--凌乱的房间会强化人们的种族主义倾向--如果每天喝两杯咖啡,患上胰腺癌的风险将极度放大--生活在输电线附近的儿童有更大的患癌风险--人类有能力将死亡延迟到重大仪式过后.........

以上说法,听起来很荒谬,但很多这样反常识的结论却充斥在网络上,而且还煞有介事地宣称有数据的支撑,让你一度怀疑自己的三观可能要崩塌了。

数据本身不会说谎,但是使用数据的人往往会故意误导我们。科斯曾经嘲讽道:“如果你对数据拷打足够长的时间,它一定会招供”。

这本书考察了总结了一些常见的数据谎言,能帮助我们识别他们的数字谎言,来看看你有没有中过招吧~

选择性偏差

选择性偏差,指的是选择了不恰当的样本来代替总体,导致结论偏离的现象。

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(1)

例如在1936年,罗斯福和兰登的大选中,美国民调机构通过电话登记给民众邮寄了民调意愿调查表,其中有230万民众回复,数据统计显示兰登将大获全胜。

但是结果啪啪打脸,罗斯福以压倒性票数获胜。

这是一次典型的自选择偏差,因为在当时的美国拥有电话的人大多是富人。

富人大多都支持兰登,而罗斯福的拥护者是更广大的底层群众,他们没有电话,天然被民调机构排斥在外,然而底层民众的数量远超富人。

所以,不仅要关注结论数据,还要关注这个结论的统计数据是从哪来的?样本的选取是否能代替总体。

幸存者偏差

幸存者偏差,顾名思义,我们只能看到幸存者,对于背后的失败者,我们从来都不会关注。

举一个经典的案例,二战期间,英国和德国的空战异常激烈,为了最大程度减少损失,英国发起了一项研究课题:在飞机的哪些部分加厚装甲,才能最大程度的保护飞机,减少飞机和飞行员的损失?

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(2)

英国的科学家一看,这不是很简单嘛,统计一下从战场上返回的战机上子弹孔的分布,然后在弹孔密集的部分加厚装甲,不就行了吗?

统计学家Abraham Wald一看这结论,上去就是耳光8连击!

他连续写了8篇报告指出:你们都忽略了那些在战场上被击毁的倒霉蛋们,这些幸存者能回来,恰恰说明他们身上的弹孔是不致命,应该研究那些被击毁的飞机!

幸存者偏差由此得来。幸存者偏差在生活中其实非常常见。

比如,鼓吹读书无用论的人,常举的例子就是比尔盖茨,扎克伯格没读完大学就能创建庞大的商业帝国,或者你身边的某某读完高中就下海了,现在混的也风生水起。

人们总是习惯把目光聚焦于这些成功的幸存者们,但是对于背后的失败者却知之甚少,甚至知道了也不愿意相信,因为我们还有一个劣根性:侥幸心理。

很多成功学、培训机构的割韭菜手段,他们只会告诉你 谁谁谁学了这个课升职加薪了,创业成功了,月入10万了,但却闭口不提那些失败的倒霉蛋。

选择性谎言

选择性谎言,我们只会把对自己有利的信息选择性展示给别人看。

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(3)

选择性谎言是骗子的常用手段,大到国家层面的摸黑,例如西方媒体对我国的大肆片面报道,让西方民众误以为中国人民生活在水深火热之中。

中到公司企业层面,例如,很多公司的财报为了好看,只会选择性的发布对自己有利的部分,所以对于公司的财报等新闻,去第三方无利益纠纷的机构看,会更加真实。

小到生活的方方面面,跟老板汇报坏消息,我们不会说:老板,我们的销售额下降了2成;而只会说:老板,我们的销售额在外部环境差的情况下仍然保持了8成!

跟父母我们也只会报喜不报忧,当然这是善意的谎言了。

所以,对于得到的信息,我们要学会甄别,这些信息是否全面?发布信息的人是否存在利益关系?

小样本谎言

网上有一个热门的段子:谎言的最高境界就是每句话都是真的,但是连起来就是一个巨大的谎言:

在世界杯的历史上,仅有三支国家队战胜过中国国家队,分别是巴西、土耳其和哥斯达黎加。没有任何一支足球强国能够逼平中国队。就算是巴西这样的足球霸主也只战胜过中国一次,从来没有一支球队能击败中国队两次!

听起来是不是很牛逼的感觉,但实际上,中国队进入识别的次数只有3次.....

小样本偏差,指的是使用真实的少部分数据来试图描述整体的状况,听起来很有道理,但是却经不起仔细的推敲。

小样本谎言在生活中有很多,我们经常使用身边的例子来验证一些事实,常见话术:

“你看那谁,吃了这个药病就好了,这个真的是神药啊!”——但还有很多不认识的人吃了没效果

“我们公司的业绩增长了3倍!”——但事实是从1000增长到了4000

“某某学员学了这个课程,进了大厂,年薪50万!”——但还有很多其他学员连工作都找不到

在工作生活中,大家可以感受一下这些“断言”。

辛普森悖论

辛普森悖论,不是某人的悖论,它指的是:整体的结论和局部分结论正好相反。

举个例子:某互联网公司在探索如何增加广告收入,他们有两个方案:

方案1:一次点击,将广告放在首页,用户点击后获取收入方案2:二次点击,首页只有关键词,用户点击关键词后,将相关的广告展示给用户,用户点击获取收入

两个方案看上去各有优劣,方案一展示量大,但是可能由于不精准,点击量会少,而方案2恰好相反,展示量不大,但是由于是根据关键词推送,用户可能更感兴趣。

A/B测试一段时间后,收集数据的如下:

一次点击

二次点击

收入

用户数

RPM

收入

用户数

RPM

2.9

250

11.6

1.7

140

12.14

其中,RPM指的是每1000用户的收入。

咋一看数据,结论显然是二次点击更好,那是不是就使用二次点击的方案呢?

如果你真这么做,有可能就是给自己挖坑。我们再来看另外一张表:

一次点击

二次点击

收入

用户数

RPM

收入

用户数

RPM

国内用户

1.8

70

25.71

1.2

50

24

国外用户

1.1

180

6.11

0.5

90

5.56

总计

2.9

250

11.6

1.7

140

12.14

大家一看这数据,都懵了。为什么细分到国内和国外用户后,不管是国内还是国外,一次点击的RPM值都大于二次点击,而综合起来确实二次点击优于一次点击呢?

这就是著名的辛普森悖论,总体的结论和局部结论正好相反。出现辛普森悖论的原因是,没有考虑到容易让人忽略的混杂因素。

在这个例子中,用户类型是一个混杂因素,RPM不仅受到点击类型的影响,也与用户类型有关。

国内用户有更高的RPM,而且相对于国外用户,更喜欢二次点击,因此推高了总体对于二次点击的RPM值。

要想注意到可能存在的辛普森悖论,就需要注意是否存在让人忽略的混杂因素。

回归均值

优秀的人往往没有那么优秀,而平庸的人也往往没有那么平庸。

人们几乎每天都会在生活中遇到它。其次,几乎没有人理解这种现象。这两个原因的叠加使均值回归成了人类决策最基本的错误来源之一

什么是均值回归?举个简单的例子:

假设班里有30名学生,每个人的能力值是他们经过大量考试的平均值,学生张三的能力值是80分(表示他考试的平均成绩是80分),李四的能力值是60分。

但这并不意味着张三每次考试都是80分,有可能有一次考试正好是张三做过的题,于是他考了95分,而下一次考试的题张三没有接触过,他可能只考了75分,显得张三变平庸了。

实际上,每一次考试都是对张三成绩的不完美测量,而这些不完美的测量,都会回归到张三的能力值。

这种“得分远离均值的人在第二次测试中倾向于获得更加接近均值的得分”的现象是均值回归的一个例子。

投资成功是对投资者才能的一种不完美考量。因此,我们也会看到回归现象:平均来看,在任何一年做出最佳股票选择的投资咨询师都会在第二年变得更加平庸。

我们可以看一下这张家族智商的均值回归图,不止是智商,身高、颜值等都是一样,所以青出于蓝而胜于蓝,可能不一定成立。

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(4)

通过均值回归,我们可以理解这样一个道理:

由于我们倾向于在其他人表现出色时奖励他们,在其他人表现糟糕时惩罚他们,又由于均值回归现象。

因此从统计上看,我们将由于奖励别人而受到惩罚,由于惩罚别人而受到奖励,这是人类社会的一个组成部分。

所以,如果你表现优秀,请不要沾沾自喜,表现平庸也不要自暴自弃,这些都可能只是均值回归现象而已。

那么怎样才能让自己发挥得更好?答案,显而易见,提高自己的平均水准。

平均数陷阱

这可能是大家最熟悉的陷阱了。

看着对于某些行业的平均薪资,我们总是无奈地自嘲:看,我们又被“平均”了

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(5)

平均数是统计学中最基本的概念,能在一定程度上反应数据的分布情况,但是当数据中存在异常值的时候,平均数就失真了。

举个例子,看下列一组数:3,5,6,100,2,4,8,9,10,这组数的平均数 = 14.7,很明显偏离了这组数据的大多数情况。此时,平均数就不能反应数据的真实情况了。

怎么规避这些异常值呢?最常见的做法是,在比赛中通常会去掉一个最高分,去掉一个最低分,然后再去平均值,这个方法就能在一定程度上去掉过高或过低的异常值。

还有一些方法是,使用中位数或者众数。中位数是将一组数据按大小顺序(从大到小或从小到大都可以)进行排列,然后找到中间位置的数据,如果是偶数个则去中间的两个然后取平均值。

例如上个例子的中位数是2,3,4,5,6,8,9,10,100,而6相比于平均值14来说,更能反映这组数据的真实情况。

视觉偏差

眼见不一定为实,我们先来看两个对比图

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(6)

左右两幅图都是同一家公司的年度收入数据。

从左图来看,这家公司的收入数据波动并不大,发展很平稳。

但是看到右图,董事会的人坐不住了,厉声质问CEO:你是干什么吃的?为什么我们的利润下降这么多?!

一样的数据,为什么差距这么大呢?你仔细观察一下就会发现,原来是左侧的图纵坐标是带0的,而右侧的图是从1000000开始的。

右侧图使了个障眼法,通过缩小纵轴的刻度,将数据之间微小的差距放大了,人为地制造了恐慌。

所以,当我们看到这样剧烈的波动时,先别慌,看清楚纵轴的刻度是不是从0开始的。

而反过来看,我们也可以利用这样的技巧。比如我们做年终总结要突出自己的成绩时,比如我们给投资人展示公司的数据时......

相关还是因果

我们先来看以下论断:

--世界非商用太空发射次数和美国社会学博士授予量呈高度关系--一个国家获得诺贝尔奖的数量和该国食用巧克力的数量存在因果关系--夏天冰激凌消费越多,溺水而死的人数就会越多

咋一看,我们肯定会嗤之以鼻,这扯淡呢吧,尤其是第三个!

但是,先别慌,就第一个论断来说,它可是有严肃的数据支持的,如下图:

为什么有人会一本正经的胡说八道(如何轻松识破一本正经的胡说八道)(7)

但是,这是真的吗?

并不是,这组数据只能支持两者相关,却得不到因果关系。相关关系不等于因果关系,而很多人常常把二者混为一谈。

因果,简单的说就是,如果两件事A和B,A是B发生的原因,而B是A发生的结果,那么就可以说A和B之间存在因果关系。

而相关的含义是,事件A和B,如果A变化,B也随之变化,但二者并不存在因果关系,那么就可以称A和B存在相关关系。

如何判断两个变量之间是否存在因果关系。我们可以通过以下三个问题进行探寻:

(1)是否纯属巧合?例如:海盗数量和地球的气温

(2)是否存在第三方变量?例如:孩子的体力和学习能力

(3)是否存在“逆反因果关系”?例如:警察数量和犯罪案件数量

如何证明因果关系?最有效的办法就是随机对照试验,通过严格的控制试验变量,只有单一变量的变化引起结果的改变时,我们才能说这一单一变量和结果存在因果关系。

所以,当我们看到一些反常识的结论时,即使有数据支撑,我们也要问一下上述的三个问题。

小数定律

诺贝尔奖获得者丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特沃斯基(Amos Tversky)合作发表了许多论文,包括发现我们的判断如何受系统性偏差和误差影响的开创性研究。

卡尼曼和特沃斯基观察到的认知错误之一是相信小数定律。什么是小数定律?

举个例子,我们都知道抛硬币,正反面的概率都是50%,当我们连续出现4次反面的时候,我们往往会认为下一次是正面的概率会超过50%,但实际上其实还是50%。

小数定律导致了两个经典的问题。第一个问题是赌徒谬误。我们总是固执的认为:世界上好事和坏事的供应量是固定的。

所以,当一个赌徒在赌场上连续输了很多次的时候,他们不会选择及时止损,而是会选择继续下去。

一方面是如果不继续,损失太大,他们无法接受这样的损失和失败的自己;另一方面,他们总是认为,连续输了这么多次,下一次肯定赢,因为一个人不可能永远倒霉下去。

但事实证明,倒霉的人并不会随着倒霉次数的增加而时来运转。

另一个问题是,滥用典型事件

比如,一个女孩子喜欢喜欢你的概率是50%(喜欢或者不喜欢),当你观察到她居然好几次对你笑了以后(实际只是礼貌),你就认为她喜欢你的概率增加到了80%(不然她为什么老对我笑呢?)

我们天生倾向于寻找模式并且相信我们看到的模式背后一定存在某种合理的解释。

而实际上生活中真的存在很多的巧合,我们常常很难认识到随机性会生成看上去有意义但实际上毫无意义的模式。

所以,我们很容易被那些对无法解释的事情做出解释的说法所引诱。

最后

著名经济学家罗纳德·科斯曾说:“如果你对数据拷打足够长的时间,它一定会招供。”

有些人是误用了统计学,得出了错误的结论;有些人——甚至是久负盛名的学者,则是故意用错了统计学,得出了自己想要的结论。

无论是何种情况,我们都需要擦亮眼睛,不要被数字欺骗了~

,