HDFS是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS设计思想:分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。​

在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,….)提供数据存储服务​。

重点概念:文件切块,副本存放,元数据。

hadoop上传文件命令(hadoop菜鸟教程)(1)

HDFS重要特性:

HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改(注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)。

HDFS原理篇

工作机制:

工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力。注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解。

1 概述

2 HDFS写数据流程

客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本。

这里说明文件的切割是在客户端实现的,而不是NameNode。文件的传输也是由客户端传到指定datanode上,副本由datanode传给其他datanode。​

详细步骤(重要):

3. HDFS读数据流程

概述:

客户端将要读取的文件路径发给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端进行数据追加合并从而获得整个文件。

详细步骤解析:

跟namenode通信查询元数据,找到文件块所在的datanoede服务器挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。​

NAMENODE工作机制

学习目标:理解namenode的工作机制尤其是元数据管理机制,以增强对HDFS工作原理的理解,及培养hadoop集群运营中”性能调优”、”namenode”故障问题的分析解决能力

职责:

NAMENODE职责:负责客户端请求的响应元数据的管理(查询、修改)元数据管理:

namenode对数据的管理采用了三种存储形式:内存元数据(NameSystem)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits.xml)可通过日志运算出元数据

元数据存储机制(重要):

A、内存中有一份完整的元数据(内存meta data)

B、磁盘有一个”准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)

​C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)

注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作完成后,相应的元数据会更新到内存meta.data中。

元数据手动查看

可通过hdfs的一个工具来查看edits中的信息hdfs oev -i edits -o edits.xmlhdfs oiv -i fsimage_0000000087 -p XML -o fsimage.xml

inputfile: 要查看的fsimage文件

   outputfile:

用于保存格式化之后的文件 process: 使用什么进程解码,XML|Web|…

​Datanode工作职责:

存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息(通过心跳信息上报)(这点很重要,因为当集群发生某些block副本失效时,集群如何恢复block初始副本数量的