有想认识世界的欲望,有思考的能力,这是人与其他生物在生理上的最大区别,而这个欲望和能力也导致了科学和技术的产生,彻底改变了人类的生存面貌除了世界我们想认识,我们的认识能力本身也需要研究,这就是认识论,认知论涵盖很多方面的内容,要回答最关键的问题,我来为大家科普一下关于概率论在现实有用吗?以下内容希望对你有帮助!

概率论在现实有用吗(我们应该如何认识这个世界)

概率论在现实有用吗

有想认识世界的欲望,有思考的能力,这是人与其他生物在生理上的最大区别,而这个欲望和能力也导致了科学和技术的产生,彻底改变了人类的生存面貌。除了世界我们想认识,我们的认识能力本身也需要研究,这就是认识论,认知论涵盖很多方面的内容,要回答最关键的问题。

例如:

世界是不是可以认识,世界的运行是因果性的,还是随机性的?

答案:世界的运行有很多方面,人类只能分别去认识,各种因素的组合无穷无尽,人类的认识也无穷无尽,科学研究没有终点,物理学的所谓圣杯解决后还会有下个圣杯。

世界的运行既有因果性的,也有随机性的,整体上是随机性的,多个具有因果性的因素组合在一起,经过多级演化,计算量几何增加,到一定程度就会超过计算能力,也就相当于随机性了。

科学理论是反映了世界的本质,还是仅仅是个人类能理解的解释工具?

答案:现在的科学都是解释工具,至于未来能否找到世界本质,不知道。

  • 认为贝叶斯定理是人类认识真实世界的逼近手段,可以先随便假设一个概率,称为先验概率或主观概率,然后根据拿到的真实样本,重新计算概率,称为后验概率或客观概率。正确看法:贝叶斯定理不是逼近手段,是真实的概率,先验概率是有可能对结果造成巨大偏差的,不可随便假设一个先验概率,必须通过大样本统计得出。

  • 使用名词:主观概率,客观概率,先验概率,后验概率。我的看法:这种称呼和名词不适合,容易造成误导,主观概率或先验概率就是所有样本的统计概率,不是主观或先验的。

  • 认为贝叶斯定理的结论违反直觉。正确看法:不是违反直觉,是忽视了某个因素,只要语言不造成误解,关注所有数据,直觉和贝叶斯定理的结论是一致的。

  • 医学诊断,第一次发现问题,必须要再检测。正确做法:如果是失误造成的,二次检测意义重大,若不是就没有意义。如艾滋病人某蛋白为阳性,但正常人也有极少量为阳性,若检测结果是阳性,失误造成的阳性占比不超过一半,则二次检测没意义。

  • 算法:先算总概率,再算分概率,两个相除得出第一次发生概率,若又有新事实,在前一个算出的发生概率的基础上再同样算一次,这种算法太繁琐。简洁的算法:比值算法,直接分类算频次,然后相除得出比值,通过比值相加得出总频次,分类频次除以总频次即得出另一事件发生概率,发生的事件有多次,相斥的A的基础概率直接就多次乘以发生B的概率,最后结果相除得出比值。

  • 数据含义模糊,有歧义,没有澄清和明确,导致读者无法理解甚至误解。

  • 贝叶斯定理详细讲解:

    贝叶斯定理就是条件概率,假设有两类事件,A事件发生导致一定概率的B事件发生,类中事件间互斥,即A1,A2,A3,..互斥,B类事件相互间没有关联。A1发生可以导致产生B1,B2..;A2发生也可以导致产生B1,B2....。已知B1发生了,求A1发生的概率,首先要算出B1发生的总频次,然后在这里面找A1的频次,后一个频次除以前一个频次就得出 A1发生的概率。接着又发生B2,这时A1发生概率是多少,同样的方法,在刚才已算出B1发生A1概率的基础上再算。这个定律是英国神父贝叶斯在18世纪发现的。

    举例

    邮件箱中收到大量邮件,有诈骗邮件,有正常邮件。根据统计,诈骗邮件中出现文字:“中奖”占30%,出现“www.”占40%;正常邮件出现“中奖”占1%,出现“www.”占2%。数据统计显示邮箱中诈骗邮件占比为20%,随机抽取一封邮件发现含有“中奖”和“www.”,这封邮件是诈骗邮件的概率是多少。A类事件就是邮件类型:诈骗和正常,B类事件就是发现字段:“中奖”,“www.”

    先介绍网上和教课书上的解法,再介绍一种非常简单的比值解法。

    分两步求解:先算发现“中奖”后,诈骗邮件的概率,然后在这个基础上又发现“www.”概率又提升到多少。

    例子中所用的“频次”是指发生的次数,在总次数是1时内涵完全和概率相同,只是有时样本有具体数量时用频次更好理解。

    第一步:算发现“中奖”文字时判断是诈骗邮件的概率

    有“中奖”文字的邮件的总频次:

    正常邮件有“中奖” 诈骗邮件有“中奖”=

    80% x 1% 20% x 30% = 6.8%

    诈骗邮件中有“中奖”文字的邮件频次:

    20% x 30% = 6%

    发现了“中奖”文字的邮件,这个邮件是诈骗邮件的概率:

    6% / 6.8% = 88.23529%

    第二步:又发现这个邮件还含有“www.”,这封邮件是诈骗邮件的概率是多少

    这里的关键就是:这时通过发现“中奖”字样已确定诈骗邮件的可能是88.2%,不再是初始的20%,又发现“www.”要按88.23529%算新频次。

    有“www.”文字的邮件的总频次:

    正常邮件有“www.” 诈骗邮件有“www.”=

    (1-88.23529%) x 2% 88.23529% x 40% = 35.5294%

    诈骗邮件中有“www.”文字的邮件频次:

    88.23529% x 40% = 35.2941%

    这个邮件是诈骗邮件的概率提高到:

    35.2941% / 35.5294% = 99.3377%

    上面就是通常所见的条件概率算法,网上和教科书上介绍的都是这种算法。其实有一个可以大大简化的方法:

    把概率转化为比值:诈骗邮件的概率换成诈骗邮件和正常邮件的比值,等效的含义,但可以大大简化算法和理解:

    诈骗邮件发现“中奖”和“www.”的频次:

    20% x 30% x 40%

    正常邮件中发现“中奖”和“www.”的频次:

    80% x 1% x 2%

    两者的比值:

    20% x 30% x 40% /(80% x 1% x 2%) = 150:1

    转化为概率: 150/(150 1) = 99.3377%

    通过比值算法,可以很轻易看出初始概率值即垃圾邮件占比20%对结果有影响,所以那种说先验概率后验概率,甚至说先随意假设个先验概率,然后不断修正,这个说法有很大误导,除非后续的发生概率都很低,导致最终的概率接近100%,否则所谓先验概率,或者叫主观概率也好,对所谓后验概率影响巨大。

    通过比值算法,也可以轻易看出先检查哪个文字,判断诈骗邮件的结果都一样,这个如果是增加很多文字检查,比值算法的优势更大。

    垃圾邮件判断的例子用来解释贝叶斯定理网上很多,但其实这类例子不合适,因为有个暗含的条件导致第二次检测不能用贝叶斯定理,但大家都无视它,即字段“中奖”和“www.”一般不是无关的,含有“中奖”的邮件一般也会含有“www.”,所以不应该用全部样本的概率值:诈骗邮件40%和正常邮件2%。假如统计的结果是:含有“中奖”的邮件有50%含有“www.”。频值计算就应该是:

    诈骗邮件频次:

    20% x 30% x 50% (40%,50%取较大者)

    正常邮件的频次:

    80% x 1% x 50% (2%,50%取较大者)

    两者的比值: 7.5 :1

    可以看出,一旦第二类事件间有关联,除了第一次检测,后续增加文字检测失去意义。

    例子二(网上常见的一个例子):

    两个盒子,A装了30个红球70个白球;B装了30个红球70个白球,随意拿出一个盒子,从中拿出一个球看颜色,记下然后放回,再拿一个看颜色记下放回。如果拿了12次,8次红球,4次白球,问是盒子A的概率是多少。中间不换盒子(这一点常常不提醒)。

    解法:

    网上的解法都是一次次来验算,然后代入下一次,甚至用到python编程,用电脑算,非常繁琐,并且不能轻易看出先算红球或白球的顺序对结果的影响。用比值算法就简单很多。

    假设拿盒子随机,都有50%概率拿到,从A盒子拿8次红球4次白球的频次:

    50% x (70/100)^8 x (30/100)^4

    从B盒子拿8次红球4次白球的频次:

    50% x (30/100)^8 x (70/100)^4

    两个盒子的频次比值就是两者概率比值:

    2401 :81

    A盒子的概率就是:

    2401/(2401 81) = 96.7 %

    如果我们不是随机拿盒子,或者两个盒子的球数不同,例如初始拿A盒子的概率是20%:

    比值就变成了:

    20%x2401 : 80% x 81

    12次验证后A盒子概率为88%。

    比值算法很容易理解 红球和白球,先演验算哪个就是先乘哪个概率因子,结果都一样,同样得出所谓先验概率或主观概率或叫基础概率肯定是有影响的,如果两个盒子的球比差别不大,这个影响就是巨大的。

    例子三(网上常见的例子):

    艾滋病人某个蛋白检测为阳性的概率是99.99%

    正常人某个蛋白检测为阳性的概率为0.1%

    社会上患艾滋的人占比为0.01%

    现检测出某人这个蛋白显示为阳性,问这个人患艾滋的概率多大?

    解法:

    社会中艾滋病人检测出该蛋白为阳性的频次:

    0.01% x 99.99%

    社会中正常人检测为阳性的频次:

    99.99% x 0.1%

    检测出阳性的艾滋病人频次和检测出阳性的正常人比值:

    0.01% x 99.99% : 99.99% x 0.1%

    = 1:10

    检测为阳性的人得艾滋病的概率为1/(1 10) = 9.1%

    这个例子常常用来说人的直觉是错的,其实不是直觉错,而是对数据不敏感,不能关注所有数据,稍微的数学训练,愿意简单计算的人直觉也不会错。

    检查为阳性,医生一定会要求再检查一次,又检测为阳性时患病的概率是多少?

    社会中艾滋病人两次检测该蛋白为阳性的频次:

    0.01% x 99.99% x 99.99%

    社会中正常人两次检测为阳性的频次,这时其实要分情况,分为检测出错和正常人也有阳性的,假设出错造成的正常人阳性占50%。

    99.99% x 0.1% x 50%

    检测出阳性的艾滋病人频次和检测出阳性的正常人比值:

    0.01% x 99.99% x 99.99% : 99.99% x 0.1% x 50%

    = 0.9999 : 5

    两次检测为阳性的人得艾滋病的概率为0.9999/(0.999 5) = 16.666%

    只升了一点概率。二次检测意义不大。

    假如正常人检测为阳全部是检测出错造成的,正常人不可能为阳性,则第二次检测依然为阳性的正常人频次:

    99.99% x 0.1% x 0.1%

    二次检测为阳性的艾滋病人与二次检测为阳性的正常人频次比值:

    0.01% x 99.99% x 99.99% : 99.99% x 0.1% x 0.1%

    = 99.99 : 1

    二次检测为阳性患病的概率为: 99.99/(99.99 1) = 99%

    二次检测意义重大,但前提是正常人检测为阳全是检测失误所致,而不是正常人也有阳性的。

    例子四:

    某城市出租车只有红色和蓝色两种,分别为60%和40%。出现一次出租车逃逸事故,有人举报说发现是蓝色的出租车所为,警方判断举报人的可靠度为80%,警方应该认为蓝色出租车逃逸的概率多大。

    这个例子的关键是对可靠度80%的理解,如果蓝色车看成是蓝色的概率是80%,红色车看成是蓝色的为0%,则逃逸车是蓝色的就是100%。如果红色车被看成蓝色的概率是20%,则蓝色出租车逃逸的概率计算就是贝叶斯定理,和上边的例子一样的算法:

    60% x 20% : 40% x 80% =

    3 : 8

    蓝色出租车逃逸的概率是: 8/(3 8) = 72.7%

    这个例子是要说明有些应用场合必须明确数据的含义,忽视数据含义会导致错误或无法理解。

    总结:

    通过上面4个例子,大家应该可以了解如何计算条件概率,以及容易出错和误解的地方。网上的介绍资料全部采取按次的算法,不但繁琐,而且难于理解,还喜欢用标记符号:P(Ai|Bi), i=1,2,3...。道理上并没错,但为什么不用简洁易懂的比值算法?这其实涉及到对数学工具的正确使用。数学本质上是形式推理系统,帮助降低大脑推理难度,符号代替数量,运算律代替推理逻辑,推理过程不再考虑实际意义,直接按运算律演算。数学工具最能发挥优势的地方:对象间的关系复杂,如:用微分方程组表达变化率方面的数量关系,通过积分运算就能得出对象解。如果对象间的关系简单,再用复杂数学工具反而添乱。拿上面最后的例子说明:针对的对象有红色车占比,蓝色车占比,举报人看到红色车的可靠度,举报人看到蓝色车的可靠度,红色车逃逸车祸概率,蓝色车逃逸车祸概率,针对的数量对象有6个,但这6个对象间的关系很简单,若用代数去列等式还要关注符号含义才能理解,这就失去了用代数这种高级工具的价值。

    随着大数据时代的到来,各种统计数据会越来越多,条件概率的应用会更加频繁。甚至找老婆都可以根据了解到的有限信息去推算靠谱的概率,我们每个人都应该掌握这个基本工具,这样才能对外界有更准确的判断和认识。

    ,