从智慧和信息的区别来看,信息基本相当于数据。数据的含义是进行各种统计、计算、科学研究和技术设计所依据的数值,是事实或观察的结果,是用于表示客观事物的未经加工的原始素材,并被认为是信息的表现形式和载体。所以,数据基本上跟信息是一样的东西。随着大数据技术的出现,现在数据一词很流行,几乎和信息一词在20世纪80年代的流行程度一样。彼时是无事物无信息,现今则是无事物无数据;彼时是信息一词泛化,而现今又是数据一词泛化。

智慧档案馆首先要把档案数据化或信息化。档案数据化是相对于之前的档案数字化而言的,是我在2019年的一次讲话中为了区别于此前人们常说的档案数字化而提出来的。其实,它的意思就是把纸质档案或纸质档案数字化图像中的每个字都转换成电脑可以处理的数据或信息,并输入电脑,进入数据库,供人们通过大数据技术进行挖掘和处理。数据是智慧档案馆的基础。没有数据,特别是没有档案内容的所有数据,就不能把数据或信息变成智慧。也可以说,智慧档案馆是基于数据的,有了数据和各种数据处理技术,才有智慧档案馆。所以,没有数据就谈不上建设智慧档案馆。

智慧档案馆的数据应包括电脑可检索的档案全文数据,即:信息流数据;档案实体、档案装具、档案设备等方面的数据,即物流数据;档案工作者、档案利用者、档案参观者等方面的数据,即人流数据;档案库房温度、湿度及各种有毒有害气体浓度,水、火、菌、虫、鼠等各种环境或条件的数据,即环境数据。也就是说,“智慧档案馆的数据=档案全文数据+物流数据+人流数据+环境数据”。在这些数据中,档案全文数据是最关键、最重要、最根本、具有决定性的部分。建设智慧档案馆,最重要的是运用各种手段尽快地把纸质档案和纸质档案数字化图像及录音录像档案等全部转化为电脑可以检索的电子文档,把档案里的前人智慧挖掘出来,转化为今人的智慧,这就是档案数据化,即档案的数据转化工作。档案数据化是智慧档案馆建设的要义和核心。

档案文件数字化(档案的数据化信息化)(1)

目前,档案数据化或是把档案由文字、声音转化为数据的途径至少有以下几种:第一种,对原件上文字为铅排、打印的纸质档案以及原件上文字虽然手写但又十分工整的档案,用OCR识别技术进行转化,其准确率可在99%以上;第二种,对原件上文字为手写且OCR技术不易识别的档案,用特殊的手写字识别技术进行转化,其准确率目前最高可达95%左右;第三种,用人工录入电脑的办法转化;第四种,用人工朗读文字并通过音频技术把声音转换成文字,其准确率也可达95%左右。需要指出的是,目前这4种转化方式都需要人工进行校核,都不能100%准确。在转化过程中,文字能全部准确转化出来最好,如不能也不要紧。因为档案中并不是每个字都具有数据意义或检索价值的,有的虚词、连接词、形容词、装饰词、重复强调语等,即使这些字转化不出来或不准确,也并不会太大影响整份档案的实际应用。对全文数据来说,当然是越多越好,但也不是每个字都不能少,或少一个字就不行。举一个例子:“张建国,他出生于一九四九年,也就是新中国成立的那一年。”这句话共24个字,但真正具有实际检索意义的,只有“张建国,一九四九年出生”这10个字。只要把这10个关键的字转化出来了,这句话的基本意思或基本要素、主要信息、核心要义就有了,其他14个字,也就是一半以上的部分,能转化出来当然更好,即使不能转化出来也不太影响全句主要意思和基本信息的表达。因此,现有的各种数据转化技术都可以先进行应用,并在应用中不断提高其转化准确率,而不必等到某种技术完全成熟了再去用。

智慧档案馆,光有数据还不行,还必须有数据挖掘和主动推送技术。数据挖掘就是通过算法从数据库的大量数据中展开搜索,找出隐含的、先前未知的、有潜在价值的信息。由此看来,数据挖掘技术实际上就是对大数据进行智慧性处理的技术,是把信息变成智慧的技术,是让蕴含在档案里的智慧更加显性、更加集中、更加智慧的技术。通过数据挖掘技术,能够挖掘出档案的潜在价值和潜在用户,挖掘出用户的潜在需求,从而大大提高档案的价值。

,