要理解概率、条件概率和联合概率的不同用途,我们不妨看这样两个例子。

1.概率和条件概率的差异。

例1:有两只NBA球队,L队主场的胜率是72%,C队主场的胜率是81%,哪支球队更可能获得预赛的冠军?

从它们在主场的表现来看,似乎C队更胜一筹,而且9%的差异在NBA比赛中并不小。很多人甚至会想,主场胜率高这么多球队,客场可能也差不了。但遗憾的是,这两支球队在所有比赛中的胜率分别是77%和67%,差出了10个百分点。事实上,L队是著名的洛杉矶湖人队,C队则是同城的另一支球队快船队,而上述数据则是2019-2020年赛季真实的数据。前后数据看似不一致的原因在于湖人队在客场的胜率高达82%,而快船队只有54%。

在这个例子中,一开始给出的72%和81%都是条件概率,条件就是“在主场”。如果我们用概率的符号表示,就是P(L胜|主场)和P(C胜|主场)。而两个队整体的胜率77%和67%则是无条件的概率P(L胜)和P(C胜),它们是两回事。后面两个概率,其实除了包含了主场的胜率之外,还包含了非主场,也就是客场的胜率。

事实上在那个赛季,湖人队在客场的胜率高达82%,而快船队只有54%。因此,我们不能从P(L胜|主场)<PC胜|主场)这个事实,得到P(L胜)<P(C胜)这样一个结论。实际上在这个问题中,我们想从条件概率推导出一般意义上(无条件)的概率,就需要用式一:

联合概率的乘法法则(差异概率联合概率和条件概率)(1)

,等式的右边包括条件发生和不发生两种情况。

在现实的世界里,影响一个随机事件X发生与否的条件Y可能不止主场、客场两种情况,而是有很多种情况,我们不能只考滤就这两种,可能的情况就轻易下结论。比如我们要研究女生在高考中的录取率,就不能只考虑北京周围各省市或者华东地区各省市的情况,而要考虑中国大陆地区34个省级行政区全部的情况。我们可以来根据各省市的情况,用下面的公式计算出全国的情况:

联合概率的乘法法则(差异概率联合概率和条件概率)(2)

式二

公式中,P(A)是女生的录取率,P(A丨B1).P(A|B2),……p(A|B34),特别是女生在34个省级行政区各自的录取率,它们都是条件概率,条件就是相应的地区。而P(B1),P(B2),…,P(B34)则是女生考生在各个省级行政区的分布情况,可以看作各种条件本身发生的概率。如果我们只考虑北京周边地区,相当于在式(二)中,只累计了几种条件下的概率,漏掉了大部分情况。

对于更一般的情况,我们假定条件Y有种k取值,我们就用K代替式(二)中的常数34.也就是:

联合概率的乘法法则(差异概率联合概率和条件概率)(3)

式三

这里面B1,B2,…,Bi,构成了条件Y的全部选项。在现实中虽然很多人懂得概率和条件概率不是一回事,但是在使用时却不知不觉地陷入三个误区。

第一个误区就是有意无意地漏掉了部分选项,也就是在使用式(三)的时候只累计了其中的几项,而非全部。这种现象,可以解释为什么散户在听了所谓专家的建议之后炒股的回报率还是非常低。

我们经常会看到某个股票分析师在电视或者其他媒体上谈未来的股票走势,很多人觉得听从那些建议大概率会赚到钱,并且真的拿着真金白银去操作了。但结果怎么样呢?散户们其实是很难在股市上挣到钱的,听从专家建议的散户获得的回报一点都不比随机操作的散户更高。根据美国的统计,在过去的一个多世纪里,股市的年均回报率超过7%,但是用户的回报只有1%,比通货膨胀率都低。为什么会发生这种情况呢?是那些专家的水平不行么?公平地讲,能到媒体上去发布看法的专家们,所做的分析多少是有道理的。非常遗憾的是,他们所能考虑的,只是股市可能出现的一些情况,而不是所有情况。今天的股市早已经复杂到没有人能包括各种情况都考虑周全了。散户们(包括很多专家们),根据某些情况制定的操作策略,看似有很高的挣钱概率,但其实不过是在他的假设条件发生的前提之下的条件概率,并非整体的概率,把两种混为一谈,就如同我们把一个球队主场的胜率,当成是它整体的。

我们回顾一下上节图2所展示的情况,假设随机事件A代表在市埸上挣钱的概率,两圆交叉部分P(A,B)是专家们所预言的那些条件发生的情况,它只占全部情况的一小部分。而剩余的部分:

联合概率的乘法法则(差异概率联合概率和条件概率)(4)

,也就是专家们考虑不到的部分或者他考虑到了却没有讲出来部分,才是经常会发生的常态。事实上,几乎没有哪个专业的基金团队能够做到连续5年投资回报超过股市的平均值,因为即便是他们,常常也是将有限条件下的概率作为整体的概率去处理了。

使用概率和条件概率时的第二个误区是在穷举了过去的、已经看到的全部情况后,就以为它涵盖了未来的各种可能情况,很多专业的使用统计方法工作的人,也常常陷入这个误区。

在投资领域有阅历的人通常爱讲这样一句话,“过去的表现不能代表未来”,其实就是这个道理。今天有了计算,我们容易把过去的情况都列举出来,把在那些情况下最好的应对方式都找到,但是,过去看到的全部情况其实只是所有可能性中有限的一部分,过去没有看到的情况未来完全有可能发生。2008年金融危机时,我参加了一家著名投行召集的出资人的会议,主办方分析了当前各种情况下的对策。这时一位年迈的出资人问,如果最后真实的情况不在你们的考虑范围内,会是什么结果?投资银行的负责人讲,这在历史上没有发生过。那位老先生讲,我们现在正在创造历史,言下之意,过去没有见过的条件,接下来即将出现。事实证明那位老先生说的是对的

我过去在做机器学习研究时,我的导师弗莱德里克·贾里尼克IFrederik Jelinek)教授经常讲,再大的统计量也不可能涵盖所有的可能性。例如,在自然语言处理中,我们经常需要计算当前面出现了Y这个单词时,后面跟着单词X的概率,这是典型的条件概率问题。但是如果我们把过去各种文本都拿来分析一遍,会发现有些条件Y和后面单词X的组合过去并没有出现过。这些情况是否可以不考虑呢?答案是否定的,这就如同我们使用式(三)的时候只对部分情况求和了一样。今天,在网络上经常会出现语言新的用法,如果我坚持过去看到的语言现象是完备的,那么对于新的语言现象就不知道该如何处理了。

涉及使用概率和条件概率的第三个误区是,很多人总是不自觉地选择对自己有利的条件做判断,以至于过高地估计成功率,过低地估计失败率。这些人里很多是专业人士,懂得条件概率不等于概率的道理,也懂得在使用式(三)的时候,需要枚举出所有的条件。但是,真到了执行的时候,就会不自觉地去寻找对自己最有利的条件。《自然》和《科学》这两份全世界最权威的杂志,每年会撒掉很多已经发表的论文,这倒未必是论文的作者们可能造成的,而是他们为了发表论文,有意或者无意地选择了有利于支持自己论据的条件。比如有十个不同的条件,他们只选择了三个加以考虑,或者把这三个条件发生的概率夸大。这样结果就会显得很漂亮,这种做法其实是自欺欺人。这件事其实也提醒我们学习数学知识的重要性,它可以让我们在即使不知道太多专业知识的情况下也能判断真伪。当我们看到一个结论是从部分条件中得出的,而不是考虑了全部条件,就应该怀疑给出结论的人的动机或者能力了。

2.联合概率和条件概率的差异。

接下来我们看看联合概率和条件概率的区别。不妨来看一个例子。

例2:有两种疾病C1和C2,它们的死亡率分别是10%、3%,请问哪种疾病更危险?

很多人看到这个问题,会不假思索地回答第一种危险,因为死亡率10%要比3%高得多。但是这样的想法忽略了一个重要的事实,就是一个人得上两种疾病的概率。我们不妨假设它们分别是p(C1)和P(C2),前面提到的死亡率其实是在染病条件下的概率,我定用x代表病死这个随机事件,那么根据题目给出的条件,我们知道P(X|C1)=10%,P(X|C2)=3%。认为死亡率是10%的疾病比3%的疾病危险的人,对比的是条件概率,或者说已经发病条件下危险性。但是对于这个问题,我需要对比的是发病(条件)和(结果)的联合概率,即P(C1,X)和P(C2,X).根据式(5)得知,P(C1|X)=P(X,C1)xP(C1),P(C2|x)=P

(X,C2)xP(C2)。如果P(C1)=0.1%,P(C2)=2%,可以算出来第二种疾病的危险程度是第一种的6倍。事实上,对于很多疾病来讲,彼此之间发病率的差异远超过0.1%和2%。因此单纯看死亡率没有什么意义。比如狂犬病的死亡率近乎100%,但是发病率不到一亿分之一,而流感的死亡率只有千分之几,但是发病率可能高达10%,后者比前者危险得多。很多媒体为了吸引读者关注,都会用死亡率来误导大众,而很多人也会上这类媒体的当。但是,如果我们搞清楚什么时候该使用联合概率,什么时候要讨论条件概率,就容易判断真伪是非了。

那么什么时候该使用条件概率,而不是联合概率呢?

让我们来看下面这个例子。

例3:哈佛大学在新英格兰地区(东北部6个州)和中大西洋地区(从纽约到弗吉尼亚等地)的录取人分别占总录取人数的17%和2%,这两个地区学生人数占美国学生人数的45%和17%,且两个地区的高中教育水平相当,申请哈佛的学生的比也大致相当。请问哪个地区的高中生申请哈佛更容易被录取?

从绝对录取数量来看,似乎是中大西洋地区的录取数量更多,但是这并不反映录取的难度,我们需要用概率论做一些细致的分析。

和本章第1节一样,我们还是把一个学生是否被录取看成一个随机事件X,X=A表示被录取。这名学生所在的地区则是条件,我们用Y来表示。在这个问题中Y有两个选项,B1代表新英格兰地区,B2代表中大西洋地区。P(A,B1)则表示一个申请者来自新英格兰地区,同时被录取的概率,类似地P(A,B2)则表示某个学生来自中大西洋地区,同时被录取的概率。这两个概率有多大呢?

其实它们就是17%和22%乘以一个常数C,即P(A,B1)=17%C,P(A,B2)=22%·C。虽然P(A,B2)>P(A,B1),但这是由于前者的人数更多所导致的。真正有意义的对比是条件概率P(A|B1)和P(A|B2)谁更大,即一个人身在新英格兰地区,和身在中大西洋地区被录取的概率分别是多少。上述两个地区的学生人数在全美学生中的占比分别是45%和17%,就是条件本身的概率。根据式(五)可以算出:

联合概率的乘法法则(差异概率联合概率和条件概率)(5)

也就是说,前者大约是后者3倍。至于为什么新英格兰地区的人容易上哈佛?原因很简单,哈大学在新英格兰,会多少照顾附近的学生。类似地,在加利福尼业州上斯坦福,在纽约周围上普林斯顿和哥伦比亚,就比其他地区对容易一些。世界各国的名牌大学都会照顾当地人,这是不争的事实,并非中国特有的现象。

通过上述几个例子我们可以看出,针对不同的问题我们需要使用不同的概率。有些问题需要使用(无条件的)概率,有些则需要使用条件概率或者联合概率。不过要做到这一点并不是很容易,事实上很多专业人士在处理具体问题时也会犯错误。不仅一些公开发表的文章会因为使用概率不当做了没有意义的比较,甚至一些公共的产品和服务,在使用概率时,逻辑也是相当混乱。比如将条件概率和联合概率混着用。这样的产品未必是失败的,但是性能却大受响。为了保证我们能够在不同场景都能正确使用概率,一方面需要对几种概率的含义有准确的了解。另一方面则需要对问题本身有清晰的了解。同时,理解了上述几种概率的区别,也能培养我们判断是非对错的火眼金睛。

按下来请思考以下问题:

1.北京某名牌高中学生考上清华大学的概率是10%这所高中的录取率也是10%。另一所昔通高中考上清华大学的概率是1%,录取率是80%。如果某个人只能申请一所高中,他申请哪所学校考上清华大学的概率更大?

2.在上述问题中,某名牌高中和营通高中学生考上清华大学大学的概率依然分别是10%和1%。但是这10%和1%考上清华大学的学生分别来自成绩前20%和5%的学生。这些人能否上清华大学在各自的高中都是等概率的小田如果进了名牌高中,他的成绩是最后的5%,当然经过三年努力,他的成绩有希望提高,进入到前20%的可能性是5%。小田如果进入了普通高中,他排在前5%,只要他努力,三年后有95%的希望依然能维持原先的排名。在这种情况下,他去哪所高中考上清华的概率更大?

,