提到大数据,就不能不提Hadoop,可以说,是大数据思想的出现,促使了Hadoop的研发与产生,而Hadoop的诞生与使用,也促进了大数据的发展。那么,Hadoop是什么呢?
其实Hadoop就是Apache的一个项目,是一个能够对大量数据进行分布式处理的软件框架,以便使用简单的编程模型,跨计算器集群对庞大数据集(大数据)进行分布式处理。
Hadoop框架中最核心设计就是HDFS和MapReduce,HDFS提供了海量数据的存储,MapReduce提供了数据的计算。HDFS HDFS( Hadoop Distributed File System):是一个分布式文件系统,存储Hadoop集群中所有存储节点上的文件,它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。
HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
自2006年,Hadoop之父Doug Cutting将Hadoop代码从Nutch中剥离作为一个新的子项目开始,Hadoop才正式进入大众的视线中,谁也没有想到,短短十年时间,Hadoop迅速发展壮大,几乎与大数据划上了等号。
如今,Hadoop已被公认为是目前最流行的大数据处理平台,弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。 Market Research的一份报告也预测,到2020年,Hadoop市场产值会超过10亿美元。通过以上数据,我们有理由相信,Hadoop的未来必将会随着大数据的深入人心而获得更大的发展空间,它的未来必定会更加光明。
文章来源:大数据科技视界(bigdata_horizon)
,