不确定型决策期望值计算（个人决策的战略工具）

为什么金融市场总是出现让人意料不到的“黑天鹅”？也许是我们用错了分布假设！

正态分布是金融交易中经常用到的一个统计分布假设。这个分布假设是建立在“中心极限定理”基础上的。该定理的内容是，假设我们从任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的一个钟型的正态分布。

不确定型决策期望值计算（个人决策的战略工具）(1)

正态分布的特点是大部分数据集中在中间，少部分分散在两边。但是上述结果的实现有一个隐含条件，就是这些抽样结果彼此之间应该是相互独立的。

相互独立的意思，是前一次抽样的结果不应该影响下一次抽样的结果。最具代表性的独立抽样过程就是丢硬币，无论上一次丢硬币的结果是正面还是负面，都不会影响下一次丢硬币的可能性。因此只要丢硬币的结果够多，我们可以看到一个近似正态分布的结果。

在现实生活中，如果不涉及时间序列的某个横截面大样本，我们都可以认为是符合正态分布的“独立”条件的。比如我们测量某日收市的全部A股收盘价，就会发现他们的分布也是基本符合正态分布：大部分股票的价格集中在10-30元附近，小部分位于较低的2-3元或者较高的100元以上范围。

不确定型决策期望值计算（个人决策的战略工具）(2)

但是，如果我们测量的变量是彼此不独立的话，上述的正态分布就不会成立，而是会变成指数分布或者幂律分布。这两种分布都是一个内凹的月牙形：前半段的变动幅度较高但是样本较少，后半段的变动幅度低但是样本较多。

幂律分布区别于指数分布的特点是它的前后分布更为平均，数值下降速度更为“缓慢”。

现实生活中，但凡和人类活动相关的变量在时间序列上都存在一定的相关性。例如一个股票前一天的上涨往往和后一天的上涨存在很强的相关性。因此，股票的价格变动大致上是符合幂律分布的。

幂律分布的特点，一言概之就是20/80定律。一个股票在一个时间段里面的股价表现，往往是在20%的区间内完成的大涨或者大跌。剩余80%的时间段里面，它往往只是在做随机的横盘整理。

除了股票，幂律分布还广泛地分布在语言使用（20%的单词占据了80%的出现频率），财富分配（20%人群掌握80%财富）以及网络流量（20%网站占有80%点击率）等方面。

不确定型决策期望值计算（个人决策的战略工具）(3)

幂律分布的存在，使得我们在预测时间序列分布的变量变动时，必须要有更加大的容错区间。这是因为幂律分布的“肥尾”现象更加显著：由于存在变量之间相互影响的情况，导致极端情况更加容易发生。高涨的股价会继续上升，而超跌的股票则继续下跌。

如果我们遵循正态分布的估计来预测，那么95%的股价变动可能集中在均值加减1.64个标准差的范围内。但是因为实际上股价变动是遵循幂律分布的的，95%的股价变动可能要扩展到均值加减2-3个标准差的范围。因此建立在正态分布基础上的均值加减1.64个标准差设定的“标准预测”，实际上可能导致投资者过低卖出或者过高买入，承担了额外的交易风险。

这里面最为讽刺的一个原因，可能就是因为越来越多的人使用了“交易事件彼此间是独立性分布的”这个假设来指导交易，导致不同品种之间的独立性随着交易逻辑的趋同性而消失了！这也解释了，为什么近年来金融市场上会出现越来越多历史上从未发生过的“小概率”事件，例如价格闪崩30%、回购利率飙升10倍等。这是因为如果我们用幂律分布假设来分析波动的话，这些事件本来就属于正常概率的分布范围。导致预测出错的，不是市场，而是使用假设的交易者本身。或者说，出于贪婪而无止境追求利润和忽视风险的，人性。

倒钟型的“正态分布”，也就是趋向中间；和尖刀型的“幂律分布”，也就是趋向极端，统治了绝大多数商业世界的形态。手中有这两张图作为工具，你可以看清很多商业现象，并做出正确的战略决策。

餐饮业是服务业，它和理发一样，“边际交付时间”不为零。什么叫“边际交付时间”？就是我给你做饭时，就不能给他做饭。我每做一顿饭的时间，是刚性的。我做得再好吃，一天最多做3～5顿，服务不过来的客人，只能让给别人。“边际交付时间”越高的行业，越是分散市场，符合正态分布：赚大钱的人少，亏大钱的也少，大部分人都趋向赚取平均利润。

而互联网行业呢？它的“边际交付时间”为零，因为第12课讲的“网络效应”，用户越多，就会彼此正向激励，用户就更多。领先者一旦过了引爆点，就会赢家通吃，产生垄断。这个行业，注定是头部市场，符合幂律分布：不管曾经百团大战、千团大战，最后都会趋向集中在少数几家手中。

什么是正态分布？在商业世界中，正态分布，就是因为“边际交付时间”等等因素导致的，好的少，差的也少，大部分企业趋向中间的一种“倒钟型”分布；

什么叫幂律分布？在商业世界中，幂律分布，就是因为“网络效应”等等因素导致的，强者越强，弱者越弱，大部分企业走向极端的一种“尖刀型”分布。

为什么正态分布这么常见呢？

因为通常情况下，一个事物的影响因素都是多个，比如每个人的身高，受到多个因素的影响，比如：

父母的身高

家里面的饮食习惯，每天吃素还是吃荤（当然喜欢吃肉），每天吃牛肉还是吃猪肉（都喜欢）

每天是否运动（当然），每天做了什么运动（游泳）

等等等的每一个因素，每天的行为，就像刚才抛硬币一样，这些因素要不对身高产生正面影响，要不对身高产生负面影响，最终让整体身高接近正态分布。

[1]正态分布为什么常见？真正原因是中心极限定理（central limit theorem）。根据中心极限定理，如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。

[2]正态分布只适合各种因素累加的情况，如果这些因素不是彼此独立的，会互相加强影响，那么就不是正态分布了。PS:如果各种因素对结果的影响不是相加，而是相乘，那么最终结果不是正态分布，而是对数正态分布（log normal distribution）

自然界中为何如此多的变量都服从高斯分布？因为每个变量都是由一系列随机变量组成的。例如人的身高由饮食、气候、基因等很多独立随机变量组成，这些独立随机变量就像钉子一样一层一层地摆放，最初人的身高是固定的（就像从中间扔下来的小球），经过这么多随机因素之后人的身高就变成了正态分布。

高斯分布是没有道理的，它就是一种经验分布。

一旦谈及正态分布，我们首先要想到它的两个参数：均数是多少和标准差是几。每次一遇到正态分布就迅速找这两个概念，最好形成条件反射，因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

均值——样本所有取值的平均
方差——该指标衡量了样本总体偏离均值的程度

如果我们测量的变量是彼此不独立的话，上述的正态分布就不会成立，而是会变成指数分布或者幂律分布。这两种分布都是一个内凹的月牙形：前半段的变动幅度较高但是样本较少，后半段的变动幅度低但是样本较多。

最后再来点概念和公式：

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）

最早由棣莫弗（Abraham de Moivre）在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。

不确定型决策期望值计算（个人决策的战略工具）(4)

有68.2%数值位于平均值1个标准差的范围之内

有95.4%的数值位于2个标准差的范围以内

还有99.7%的数值位于3个标准差的范围以内

正态分布的公式

不确定型决策期望值计算（个人决策的战略工具）(5)

总结：

我们生活中的两种模式，就遵循了正态分布和幂律分布。

如果这些因素不是彼此独立的，会互相加强影响，那么就不是正态分布；

反之，这些因素是彼此独立互不影响的，就遵循正态分布，比如一些群体的身高、体重等。

引用文献：

（1）正态分布与幂律分布

https://www.pianshen.com/article/99011008447/

（2）十大战略工具（6）—— 正态分布&幂律分布https://blog.csdn.net/qq_37492806/article/details/107362709

（3）百度百科

https://baike.baidu.com/item/正态分布/829892?fr=aladdin

不确定型决策期望值计算（个人决策的战略工具）

最新推荐

热门推荐