【导读】马伯庸《长安十二时辰》里的“大案牍术”应是来自于现在的大数据。收集海量信息通过分析整理快速找出相关的结果。如果拥有此思想的人回到古代,是否有可能实现文中“大案牍术”?

先说结论——不可行,但是亲王的脑洞足够大。

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(1)

其实这种脑洞在许多架空历史的小说中也都出现过。除了《长安十二时辰》之外,包括《三体》中描述的“三千万士兵组成人列计算机”,比如《宰执天下》中宋朝就有了马拉火车与蒸汽机,都是作者们脑洞大开的体现。作为网络文学,这种内容更多是一种“爽文”心态,读者看着开心就好了,不需要计较真假。

为什么“大案牍术”不可行?下面我就从存储技术角度分析一下——

提到“大案牍术”,许多人都将其定义为当下的“大数据”,并以大数据之普及臆测出“大案牍术”的可行性。不过大家显然都忘记了高中政治课上学过的内容:

任何社会均由生产力与生产关系、经济基础与上层建筑构成基本框架。生产力决定生产关系,经济基础决定上层建筑,而生产关系和上层建筑又具有反作用。

最简单的道理,我们现在之所以能够利用大数据,是因为我们处在数字化的时代,我们有电脑、手机、服务器等一系列电子计算设备,这些设备提供的计算力或者说生产力能够轻松驾驭大数据的应用需求。虽然我们承认人脑相对于电脑来说目前还是要更先进,但是显然在1000多年前的生产力状态下,想仅仅依靠人脑来实现大数据应用并不现实。

网络上对于大数据的定义很长,当然也不是很准确,但是定义中却补充了大数据应用的5V标准,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。而“大案牍术”最大的问题就是第二项——Velocity(高速)。

这里的“高速”显然不是与ETC相关的概念,而是强调数据获得、存取与处理的速度。今天,我们获取数据的来源多样,无论是在现实还是在网络中,全世界每天产生的数据(包括结构化和非结构化数据)大约在2.5亿个字节左右,这些数据来源包括但是不限于互联网、社交媒体、通讯、照片与视频、物联网和服务等等。

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(2)

但是在古代,数据的获取方式就单一的多,主要就是靠人与人之间的接触和口口相传来实现的。在《长安十二时辰》中,靖安司针对整个长安城的大大小小的信息、事无巨细地记载。且不说这需要多大的人力,单单是针对每个人的信息进行记录、分类、汇总所需要的存储设备,就是一个天文数字。

今天,你只要离开屋子,也就进入了摄像头监控当中。无论你是步行、坐公交还是自驾,路口的摄像头都会对你的一言一行进行记录。但即便是这样,如何处理并保存这些庞大的数据也会成为警察叔叔们头疼的问题,不然就不会有物联网、边缘计算和云计算的应用出现了。

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(3)

所以,从数据采集的角度来看,要将几百万人口的日常操作事无巨细的记录下来,这恐怕并不是小小的靖安司所能够安排得了的,也并不现实。比如我们需要记录张三每天几点离开家门、逛了什么商铺、买了什么东西、跟什么朋友聊天、吃了谁家的酒肉、付了多少酒钱肉钱、几点钟回家睡觉,恐怕昨天的记录还没有完成,新的一天就又开始了,所谓的“大案牍术”自然也就是一种空想。

说完了记录,我们再来说说存储。如今我们的存储是按照字节Byte来计算的,我们每天产生的海量数据被存储在世界各地的数据中心当中,通过磁盘、磁带等方式存储起来。这些数据有些是需要经常使用的,叫做热数据(比如本周上映的电影);也有一些可能用过一次就不需要再用的,叫做冷数据(比如去年上映的电影);介乎两者之间的叫做温数据(比如两个月前上映的电影)。

对于热数据,我们可以将其存储在SSD固态盘中,甚至我们也可以使用英特尔傲腾产品(比普通SSD快N倍的一种存储设备);而对于温数据和冷数据,我们可以就将其放在普通的机械硬盘甚至磁带中。但是无论如何,我们在电脑端点点鼠标,动动手指,你想看的电影就能立刻播放。

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(4)

但是这在古代是难以想象的。即便唐代已经有个成熟的造纸工艺,不需要像秦汉那样使用竹简,但是将长安城数百万人的数据都存储起来是一个非常复杂的过程,而想从这些浩如烟海的数据中调取某个人某一天的数据,即便是有着精密的分类和严格操作的工人,其耗时也是巨大的。

除了数据的获取的“高速”与数据存取的“高速”之外,我们还要看到另一个问题——数据应用与分析的“高速”。

今天我们谈大数据,是因为我们有计算性能强大的设备,有精密的数据库,有高速传输的光纤网络,还有基于这些平台上的算法和应用软件。但是即便如此,我们的大数据分析也需要结合实际情况,有些内容我们还只能给出模糊的方向,甚至进行多种可能性的预测而已。

但是在《长安十二时辰》中,完成这一工作的就只有徐宾一人。当然,徐宾作为大案牍术算法的创始人,已经展示出了对这套算法的驾轻就熟,也获得了一定程度上的成功,但是这始终阻挡不了他是一个人的事实。

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(5)

是人就要吃饭睡觉,是人就有七情六欲,是人就会犯错误。还记得2017年初阿尔法狗与李世石的精彩对决吗?大数据的最大价值就在于“熟能生巧”,或许在最初的训练中,大数据分析的速度会落后于经验丰富的人类,但是伴随着样本数量的增加和训练流程的加快,借助于神经网络模型,机器人大概率会后来居上。大数据可以越变越强,但是依靠徐宾个人的大案牍术并不会,即便徐宾能够广开门庭,收徒开课,但本质上大案牍术还是基于人脑实现的分析,与电脑的速度不可同日而语。

大案牍术,说到底就是唐代数据库,但是这个数据库提供的是结构化的数据,徐宾所进行的就是一些数据的检索和查询。但即便如此,在数据的采集、数据存取和数据处理与分析上,都是不可能实现的,“高速”的缺陷,决定了大案牍术只是一种理想化的分析模型,也只能存在于架空历史的小说当中。

归根结底,徐宾的聪明超越了时代,他所提出的大案牍术超越了唐代的生产力水平,而这种超出生产力所想象的生产关系是不可能实现的,但是这丝毫不影响《长安十二时辰》作品的可读性,毕竟读者需要的是有趣的“爽文”而不是严谨的科学论证。

彩蛋:数据存储又快又好,我们要靠什么?

长安十二时辰的成功秘诀(长安十二时辰中神乎其神的)(6)

在刚刚的文章中,我们提到了一个名字——英特尔傲腾存储。傲腾是英特尔基于3DXpoint存储介质而打造的缓存设备 ,也是当下世界超快的存储设备。它兼容了NVMe(非易失性存储器)存储协议,由3DXPoint内存介质、英特尔内存和存储控制器、英特尔互联IP和英特尔软件共同构成。傲腾具备固态盘和内存两种形态,后者被称为数据中心可持久内存,相对传统SSD来说性能提升巨大。

,