"沙里淘金"的意思想必大家都知道,由于金的化学性质稳定,它往往是以游离状态存在于岩石中。经千万年的风化,岩石破碎了,颗粒状沙金混杂在其中,在雨水的不断冲刷、搬运下,随着水流沿江河移动,在一些河床中形成了金沙富集的地带。当人们将河沙挖入淘金斗,经过反复淘洗,斗里也就留下了金灿灿的金子。

当然,今天的采金早走出原始阶段,然而"大浪淘沙始得金"的概念,早就被升华成成语,意蕴之中尤如唐代诗人刘禹锡笔下的《浪淘沙》:"日照澄州江雾开,淘金女伴满江隈,美人首饰候王印,尽是沙中浪底来"。

但是,"沙里淘金"中"千淘万洒虽辛苦,吹尽狂沙始得金"的过程,在今天的现实世界中带给我们的却是另外一种启迪:我们如今的大脑,每天所承受的事物何止是千千万万?可这一切在今天的信息长河中,却只够得上沧海中的一粟。正因为如此,当面对今天无数信息腾起的江河浪花,我们该如何通过一种怎样的"沙里淘金"手段,才能获得急需的信息呢?

信息大爆炸

科技发展的速度越来越快,今天新科技知识所产生的信息量正在急剧地增加中。英国学者詹姆斯˙马丁就曾经统计出人类知识的倍增周期:在19世纪为50年,20世纪前半叶为10年左右,到了70年代,则缩短成为5年,而到了80年代末,几乎每隔3年就翻了一番。另外一个统计更表明:一个人所掌握的知识半衰期在18世纪为80-90年,19-20世纪为30年,本世纪60年代为15年,进入80年代,更缩短到了5年左右。要知道,近30年以来人类活动所形成的信息早已经超过了以往5000年所产生信息量的总和,这就是信息爆炸!

所谓"信息爆炸"一词,最早出现在20世纪80年代。有统计表明,在那个10年里,全球信息量几乎每隔20个月就翻了一翻。进入90年代,信息量继续呈几何倍率迅猛增长。到90年代末,更由于互联网的拓展,信息终于真正地爆炸了,人们以往对于各种信息的苦苦追求和期待,却在忽然间变得有点不知所措,因为,即使你每天24小时都在看这些信息,也阅读不过来,更何况其中充斥着大量无用,甚至于不真实的垃圾信息。

信息爆炸,作为近几年来信息高速形成的一种描述,形容其发展速度如同爆炸般席卷全球。信息量的爆炸基本上表现在下面五个方面:1、新闻媒体发布的信息铺天盖地而来。2、飞速增长的广告信息大量充斥在其中。3、娱乐性信息成倍成倍地递增。4、科技信息更是不甘落后中急剧地攀升。5、个人接受信息的能力,却因此严重处于一种"超负荷"的过载状态。

今天,由于互联网实现了全球信息的交互与共享,作为现代信息社会必不可少的基础设施,更与广播、电视、光纤通信、卫星通信、电子计算机通信、微波网络等各种现代通信技术纠缠在一起,达到了高度融合。克服了传统上时间和空间的障碍,大大提高了信息传播速度和广度,世界终于进一步联结成了一体,人与人之间尤如同处于一个"地球村"中。由此带来的一波又一波信息浪潮使人们变得有点无所适从。要想从茫茫无际的信息中,及时准确地捕捉到自己迫切需要的信息,日益变得越来越困难。

大数据时代的到来

2009年以来,"大数据"这个名词在我们所接收到的信息中越来越多被提及,人类正被大数据的浪潮卷入了大数据时代。的确,它不仅数据量庞大,而且还包括了数据的获取、传输、存储、分析等综合性的最前沿技术。"大数据"这一概念正随着近年互联网和信息行业的高速发展引起人们的关注,大数据也就因此成为云计算、物联网之后IT行业中又一个颠覆性的技术革命。

面对难以穷尽的海量信息资源,最早提出"大数据"时代到来,是全球知名的管理咨询公司—麦肯锡,麦肯锡的专家们在2011年5月发布的《大数据:竞争,创新和生产力的下一个前沿》的报告中认为:所谓大数据是指"规模已经超出典型数据库软件所能获取,存储管理与分析能力之外的数据集","数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。"数据作为真正有价值的资产,就这么成为了大数据中的核心议题。

"大数据"吸引着越来越多人们的关注,大数据到底有多大呢?互联网上曾经有过这么一组名为"互联网上一天"的数据。它告诉我们:一天之中,互联网所产生的全部内容可以刻满1.68亿张DVD;发出的邮件达2940亿封之多(相当于美国当时两年纸质信件的数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,已经高于当时全球每天出生37.1万个的婴儿数量……

到目前为止,这种趋势非但没有停滞,反而更在持续膨胀中发展下去,加上我们目前还刚刚处于"物联网"的初级阶段,随着技术成熟,我们的设备、交通工具和迅速发展的各种"可穿戴"科技正在实现相互间的连接与沟通,以至于收集、储存、使用过程中带来了许多巨大且安全上的风险,如隐私的泄漏等等,还有某些虚假信息极有可能导致出现错误,以及出现无效分析结果而为用户带来严重的困扰。因此,"大数据"正影响着我们的生活习惯,工作以及思考方式。

那么,今后的"大数据"究竟会出现怎样的情况呢?

第一个特征是数据量庞大。大数据的起始计量单位已经不再是我们通常手机中所说的"G"了,而且跳过了"T(1000G)",至少是"P(1000个T)"、"E(100万个T)"或达到"Z(10亿个T)"。

第二个特征是数据类型繁多。无所不包之中不止是只有网络购物记录、音视频、图片、无人驾驶、各种地理位置……等信息了,多类型的数据将对数据处理能力提出了更高要求。

第三个特征是由于物联网的广泛应用,信息感知无处不在,由于信息量达到海量,必然导致信息价值密度的稀释与降低,如何通过计算机体系强大的机器算法迅速提高浓缩数据价值的"纯度",正是大数据时代迫切需要解决的难题。

第四个特征是处理速度必须要快,必须做到在有限的时间内及时完成任务。这是大数据时代有别于传统数据挖掘的一个显著特征。

沙里淘金觅信息

信息爆炸由此引发了我们阅读方式的革命,如何将众多信息资源得到有效利用,提高信息的内在质量呢?所以,优化信息资源的开发、管理便成为信息被有效利用的关键问题之一。

目前,面对海量般涌来的各种数据,人们正是通过一种工具来达到"沙里淘金"的目的,这个工具就是搜索引擎。正是由于搜索引擎的出现,及其延伸派生出的各种浏览器,神奇般提高了我们筛选工作的效率,缓解了目前所面临搜寻信息的巨大危机。

高频易错550个成语(趣谈成语学科学)(1)

搜索引擎工作原理图(来自网络)

搜索引擎指的是能够自动从互联网中搜集信息,经过整理,给用户提供查询结果的一个系统。由于互联网中的信息难以穷尽,而且毫无秩序,各种信息就像汪洋大海中的一个个小岛,而浏览器中的网页链接,就成了这些小岛之间纵横交错的桥梁。搜索引擎因此就可以为你绘制出一幅一目了然的信息地图,供你随时来查阅,让你登陆所需要的信息小岛。

搜索引擎包括有搜索器 、索引器 、检索器 和用户接口 。搜索器的目标是在互联网 中漫游,发现和搜集我们所需要的各种近似信息。索引器的功能是理解搜索器所搜索到的众多信息,并从中抽取形成若干索引用于表示文档 ,以及生成文档的索引仓库。检索器就会根据用户设定的查询要求,在索引仓库中快速提取出相应的文档,并对得到的文档与查询结果相关度展开评价,对将要输出的结果进行主次、先后顺序进行排队。用户接口则是对用户所输入的查询给出最终的查询结果。

例如,当用户以主题(关键)词去查找某一个所需信息,透过浏览器,搜索引擎就马不停蹄通过网络到各个不同的数据库中去搜寻,找到与用户要求内容相符合的网站后,便采用一种特殊的算法——通常是根据网页中关键词匹配的程度、出现的位置、频次与链接的质量——计算出各个网页的相关度以及排名等级,然后根据关联程度的高与低,按顺序将这些网页链接返回给用户,以满足用户提出的目标需求。

今天,遨游在信息长河中的人们,再也不是过去那种凭借经验的一叶小舟去无为地闯荡了,而是选择顺势而为,晃动探索的淘金之斗,在知识的江河中努力地"沙里淘金"。

,