大数据已经渗透到各行各业,不管是金融,交通,电商,政府都,都在推行大数据,但是很多天天提大数据,尤其是对于刚学习大数据或者即将学习大数据的,肯定还对hadoop是什么比较模糊,今天给大家总结一下什么是hadoop


hadoop的原理是什么(Hadoop是什么你了解吗)(1)

一、Hadoop介绍

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉(low-cost)的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下并发并行应用程序。所以用户可以利用集群的Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。

Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。分布式计算是一个宽泛并且不断变化的领域。

二、Hadoop的优势

1) 方便:Hadoop运行在由一般商用机器构成的大型集群上,或者云计算服务上,比如EC2。

2) 健壮:Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁失效,Hadoop可以从容地处理大多数此类故障。

3) 可扩展:Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。

4) 简单:Hadoop允许用户快速编写高效的并行代码。

三、依赖工具

目前有很多工具能够让Hadoop更容易使用,例如Hive,可以将查询语句转换成MapReduce任务。但是MapReduce的复杂性和局限性(单任务批处理)使得Hadoop在更多情况下都被作为数据仓库使用而非数据分析工具

四、总结

Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境。掌握了这两部分,也就掌握了Hadoop最核心的东西。

,