开门见山

本篇小白改变下行文结构,先在开头引出话题,然后开门见山,通过一组不同角度的描述来勾勒出对话题的理解和认知。然后在进一步描述小白的思考以及如何得出这些理解和认知。

抛出问题

先来引出话题。浏览过小白前几篇关于随机世界的文章后,我们知道这个世界本质是随机的。有些随机空间我们有共同的认知,比如时空,我们都认为一秒一秒,一毫一毫的向未来和远处均匀延伸。有些空间我们还认知的不够透彻。比如,有外星智慧吗?房价还会涨吗?未来世界会被机器人统治吗?当下哪些人群的信用好,给他们贷款的额度的上限时多少?等等。人们不但试图认知这些随机世界得到信息,还在互相的传递着这些信息。那么有些问题摆在眼前,问题一,是否任何随机世界都可以被认知清楚,简单的采样后,计算期望,方差就可以吗。问题二,人们如何衡量自己认知的程度。问题三,通信原理中的香农定理如何理解。

精确性与信息熵的关系(信息的度量熵)(1)

通过前几篇文章,我们了解到,认知世界就是认知世界背后随机空间的规律,这一过程也叫做获取信息。具体是通过采样,得到样本数据,通过统计数据来得到概率分布,也就是得到了信息。然而,小白多次提到"样本或事物背后叠加的多个随机空间"。这个叠加的方式有什么不同吗?叠加在一起的随机空间,我们通过采样和统计概率就可以正确的获取信息码?小白先来列举如下几种叠加情况:情况一,时空背后的随机空间和机器馒头生产的随机空间的叠加。情况二,机器生产馒头和馒头腐烂背后的随机空间叠加。情况三,小白投筛子和老王生男孩还是女孩背后的随机空间叠加。情况四,小白网上购买某商品的次数和商家广告频率的背后的随机空间叠加。

小白思考如上四种情况可以分为如下三种方式:

叠加方式一:情况一和情况四叠加的方式是相同的,叠加的方式是随机空间"元"(或者称维度)的增加。首先,机器生产多少馒头是"一元"随机空间(馒头数量),叠加上时间后,变成了时间和馒头的二元随机空间(天,馒头数量)。叠加上上空间后,变成了时间,地域,馒头数量的三元随机空间(天,机器位置,馒头数量)。而情况四,购买次数是一元随机空间,叠加上广告次数后变成了(广告次数,购买次数)的二元随机空间。小白细想,这里的"广告次数"类同于"时间"。试想,一个月内广告次数可能是不稳定的,比如这个月1次,下个月2次,那么我们如果把时间拉到一年,可能,今年和去年广告的次数就相同了,也就是说,我们观察一个月,广告次数不稳定,如果观察一年,广告次数基本稳定。这类似于时间,如果我们光测小于普朗克时间的时间可能不稳定,但如果我们拉长到一秒钟,时间就稳定了。

叠加方式二:对于情况三,我们也把他们认为是二元随机空间(筛子点数,老王小孩的性别)。这个感觉完全没有意义,没有任何信息的体现。

叠加方式三:对于情况二,机器生产馒头和馒头腐烂随机空间叠加,随机空间维度没有增加,而是随机空间本身的分布引入了新的能量,随机空间分布发生了变化。

针对上述三种叠加的方式,小白理解,叠加方式二是没有意义的,即对认识规律没有意义。

叠加方式三,大家应该容易理解,这种叠加方式分析处理的方法就是前几篇文章反复讨论的"卷积"

而叠加方式一,了解概率论的朋友,应该很容易联想想到,我们通过联合概率,条件概率的方法来对样本数据进行分析和处理。小白已经准备下一篇文章描述当前火热的"大数据"领域的"随机森林算法",其体现的就是对叠加方式一的处理。

第十一篇 信息的熵和度量

信息理论中关于熵的描述是"熵在信息论中代表随机变量不确定度的度量"。对此如何理解呢?我们还从"机器生产馒头"的随机空间说起。假如我们门把采样间隔为一个小时,就是观察每个小时馒头的生产数量,是不稳定的。因为生产馒头有很多工序,和面,机器加工,蒸,等等。整个流程的时间超过一个小时。因此,我们观察的结果是,有的样本是0,有的样本是很多个,比如1000个馒头。但如果,我们把采样间隔拉长到一周,那么,每周产出的馒头数量应该就很接近。因此,我们是否可以用"一周"来度量馒头生产的随机空间的不确定性。并且我们沿用热力学的做法,称它作"熵"。深入分析下这个"熵",我们不难理解,这个熵和概率有关系,假如概率1,那么这个信息就是及其稳定的,其熵为0,假如概率小,就是不一定出现,就说明不稳定。概率就是在时域或空域的积分,也就是区间越大,概率越大,越稳定。因此,熵的本质就是概率,只不过是从度量的角度来描述不稳定性。

小白又想到一个问题,熵可以用来干什么?我们通常说度量,其实包含了两个前提,一是度量的角度(维度),二是度量的单位。

"角度"本质是联系,是关联。比如从GDP的角度看中国经济,其实本质是看中国经济对GDP的影响,看中国经济在GDP上的积分,其本质是从GDP的维度去度量中国经济;再比如,从吵架次数的角度去看夫妻关系,其本质是看夫妻关系对吵架频次的影响,是夫妻关系在吵架维度上的积分,是从吵架的维度去度量夫妻关系。

对于"单位",我们通常用确定的事情,去度量不确定的事情。比如,中国经济好坏不好衡量,发展质量,发展效率等等,需要考虑的因素很多,且不好衡量,不容易量化。而GDP很明确,我支付3元买瓶矿泉水就创造了3元的GDP。因此,我们通过用"明确的"去度量"不明确的",即用熵小的去度量熵大的。"熵小"意味着单位小,度量的"精度"高,越能有效的刻画被度量事物的信息。比如,时空的熵"很小",普朗克单位(因为在普朗克单位以上时空是确定的,而小于普朗克单位,时空是不确定的,物理学家们在普朗克单位以内捕捉例子的位置,速度很吃力)。而机器生产馒头的熵比时空大。比如刚才我们提到用"一周"去采样机器生产馒头的数量才是稳定的。因此,用时空去度量馒头的生产是绰绰有余的,针对这一点,小白再描述几句话,"馒头在一周内生产馒头的数量,其本质是样本数据,其本质也是概率密度,其本质也是速度,采样的周期本质就是样本数据的熵"。阅读完小白近期关于随机世界的几篇文章后,应该很容理解这几句话。小白再说一句话,"熵意味着数据所占用的频带越宽,即频谱越宽",这句话先不解释,算是作为下一个小节(香农定理)的引子。

我们在继续谈"熵",有一句老生常谈的话"要从多个角度去看问题,要换位思考"。这句话大家耳熟能详。其本质是,"问题"既是我们分析的对象,这个问题背后是一个随机空间,这个随机空间是一个多元("多维" )的随机空间。我们要获取这个空间的信息,就需要从多个维度去度量。在某一个维度度量的结果,本质就是这个多元的随机空间在某一个维度上的熵。我们再来分析中国经济的例子,经济好快可以从GDP,人均GDP,M2,贸易顺差,污染程度,基建规模,人口年龄分布,失业率等很多因素衡量。但我们通常关注GDP,那是因为,GDP的熵很小,对GDP中国经济的描述很精确,而且中国经济再GDP维度上"熵"变化很敏感。但,我们要清楚,GDP不能完全刻画中国经济的情况,我们需要多元的维度去度量中国经济。还有在不同的时期,随着经济的发展,不同纬度的熵大小的熵的相对关系会变化。 好了,我们其实可以有以下结论,第一,我们通常用熵小的度量熵大,意思是意思是以小熵为单位去度量大的熵;第二,小熵意味着元,意味着维度。从哪个维度去度量,度量的值越大,意味这哪个维度对被度量事物的关联越大,即影响越大。我们就称作"条件熵"吧,这和概率论的概念"条件概率"是一致的。

小白再来概括和引申一下"熵"含义,一个对象的熵其实准确说应该叫条件熵,这个条件就是维度(或者叫角度,叫分类,叫元)。只是,我们通常习惯于在这个条件的熵是0的情况来描述对象的熵,因为,这个条件的熵为0,意味着条件是完全确定的。那么,条件熵,就等于熵。例如,如果明天下雨,小白带伞的概率是2/3。假如明天下雨的概率是1/2,那么小白带伞的概率就是1/6。这个概率1/6不等于条件概率2/3。而假如明天一定下雨,即条件的概率是1,熵是0。那么,小白带伞的概率和条件概率都是2/3。好了,试想我们整个人类历史文明,其本质就是获取信息的过程,把不确定型的对象变成确定型对象的过程,是熵由小变大的过程,这个熵指的是我们人类文明之熵,这个熵体现在我们的文字的积累,文化的积累,科技的进步。即文字,文化,科技以不同的维度度量着人类的文明。另外,还有一个维度就是时空的维度,我们人类的历史就是人类文明在时空维度的熵。总之,人类文明发展是认知世界的程度的加深,本质是不断的度量。用时空度量文字,用文字度量历史,用历史度量时代,用时代度量文明。

第十二篇 香农定理

接着上一小节引申,用时空度量文字,文字本质是什么,文字是语言也是符号。其本质是由时空度量而成。比如,语言符号的形状所展现的空间结构,语言符号的排列顺序所展现的时间延展。文字是人类通过时空形成一个新的维度,用这个维度人类去度量世界,比如,每一篇科技论文,就是人类在文字的维度对世界运行规律的一次采样,一篇篇的科技文章是世界物理规律在文字维度的积分,并形成了对背后物理规律的描写。而这一篇篇论文的总和就是这个客观世界的信息在文字的维度上的熵。随着时间的发展,论文不断增多,熵不断增大,最后接近世界运行规律真正的熵。

香农是美国贝尔实验室的科学家,香农的对信息和通信的贡献是开山级的。香农创造了用"比特"的维度来度量信息量,并基于此提出了三大香农定理。

我们先谈下"比特"这个度量信息的熵的信的维度。没错,这个比特就是0和1二进制的比特。但这个比特在香农贡献下,具有了非凡的意义。我们都知道一本电子书,一个电子图片,在电子设备上存在的形式就是由0和这些比特堆积而成。因此,这些堆积的比特其本质还是那些文字,那些形状。人们对这些字符,文字与0,1的字符串进行了映射。因此可以在电子设备中保存和传输。但有一个问题,比如,ASC码,所有的字符转换到0和1的比特串后的长度都是一样的。但是,在我们传送的信息中,并不是所有的字符出现的概率相同,因此,是否可以用尽量少的比特传来编码常会出现的字符,而可以用稍多的比特串来表示不常出现的字符。这样,比特的长度就代表着带概率,即确定性,即熵。比特串长度越小,熵越小。这个就是香农第一定理所描述的含义。

再来看香农第二定理,公式是(C = B*Log2(1 S/N)),其中,C为信道带宽,S/N为信噪比,B是频谱宽度。怎么理解这个公式?这一定理意指出当信息流动时,信道带宽如何进行评估。比特串越宽,信息量越大,熵越大,描述的背后的信息量越大,变化越丰富,由于频率意味着变化,因此,意味着占用更多频带宽度(请回顾小白队傅利叶变化的理解)。由于叠加了噪声,一定长度比特串的信号,实际的熵更大(叠加噪声导致)。因此,我们必须通过信号的重新编码,比如,原来用4个比特能覆盖的熵,现在要用6个比特来传送,这相当于,降低有效比特的传送速率,降低了信道的容量。假如在这种情况下,我们仍用4个比特表示,那么,对端,能正确解析的概率只有2/3。因此,香农第二定理的含义是,在有噪声的情况下,需要增加了固定长度的比特串所描述信息的复杂度。因此,我们要重新进行编码,形成更长的比特长度才能让对端以最小的出错概率翻译出信息。

再来看香农第三定理的描述,"只要码长足够长,总可以找到一种信元编码,使编码后信息传输率略大于失真函数,而码的平均失真度不大于给定的失真度"。小白理解,香农的第三定理和第二定理是异曲同工之妙。意思是,在信息编码时,可以尽可能的采取一种编码,这种编码的平均码长(即信息熵)是小于原有信号的信息熵的,因此造成了对信元的损伤,导致信号失真。但这种失真是满足保真度准则的。因此,能够满足我们对信息的要求,同时减少了信息量,提高了传送的效率。因此,第三定理,本质是在信息的保真度和信号的储存传送效率之间的一个平衡。

,