HDFS

一、HDFS：hadoop分布式文件存储系统。

优点：

1. 基于多副本存储，实现高容错

2. 适合大数据离线批处理，移动计算，不移动数据，将数据位置暴露给计算框架，把计算任务调度到数据储存的相应节点上。（结合yarn mr等再理解）

3. 存储大量数据，GB、TB、PB等，构建成本低，安全可靠。

缺点：

1. 不适合小文件存储。会造成大量空间用于存储namenode，资源浪费，运行过程中，元数据信息会加载到内存中，如果文件过大，内存会溢出。如果有很多小文件，可以通过离线定时任务将小文件进行合并。

2. 不支持随机修改，只支持追加。

3. 不能并发写入，当有一个线程正在写入时，其他的线程会被阻塞。

二、HDFS架构及核心概念：

采用master/slave架构进行存储，namenode为主节点，存储元数据（文件切分成哪些block，每个block存储在哪些dataNode节点上），dataNode为从节点，用于存储数据。

NameNode（NN）：Active NameNode只有一个，作用是：维护元数据信息；处理客户端读写请求；管理block副本策略，默认每个block存储3个副本，可修改。

hdfs Client 与NameNode发出读写请求，NameNode返回dataNode节点信息，Client与DataNode交互读取/写入数据。

edits：编辑日志，客户端对目录和文件的写操作首先被记到 edits日志中，如创建/删除文件等。

fsimage：文件系统元数据检查点镜像，保存了文件系统中所有的目录个文件信息，如：一个文件下有哪些子目录，子文件，文件由哪些块组成等等。

StandBy NameNode（SNN）：NN的热备节点，同步Active NN的 edits日志，fsimage等信息，Active 故障时快速切换为新的Active。

DataNode：hdfs中的存储节点，有多个，且容易扩展，如果增加的DN设备，利用 balance脚本可重新将数据块分布，使每个节点磁盘利用率达到均衡。

执行Client的请求；通过心跳向NameNode汇报自己的运行状态和列表信息；在集群启动时 DataNode 向 NameNode 提供存储的 Block块信息？

Block块：hdfs存储最小单元，默认128M，默认副本数3个，若文件最后一个块小于128，保持实际大小。

架构图见：hdfs_1、hdfs_2

三、HDFS高可用：

基于zk实现高可用，包括

1 主备namenode元数据共享：基于QJM（journalNode 奇数个）共享存储系统来存储edits日志信息；过程：

（1） client发出向主NN节点发出读写请求，写本地edits日志，同时写入QJM edits文件

（2）加载到本地内存，更新目录树（定期checkpoint，镜像文件写入本地fsimage文件）

（3）备NN节点同步QJM edit信息，更新自己内存中的元数据/目录树（同样定期checkpoint，镜像文件写入本地fsimage文件）

2 主备Namenode切换

一个NN对应一个 ZKFC进程（主备切换控制器），ZKFS包含两个组件：HeathMonitor 和 ActiveStandbyElector；

HeathMonitor 通过RPC远程调用检查NN的健康状况。

ActiveStandbyElector控制主备切换，1. 集群启动时，主备NN都会向ZK创建一个名称相同的临时节点（锁节点），创建成功的为主，失败的为备，且同时监控临时节点；2. 运行过程中，如果主节点异常，与zk会话消失，临时节点将被删除，备NN监控到后，会尝试创建新的临时节点，创建成功，则变为主；3. HeathMonitor 监测到NN异常，通知zkfc，zkfc调用ActiveStandbyElector 组件进行主备选举，且异常的不再参加选举。

为防止双主（脑裂），主备切换过程中有一个fencing隔离机制，1. 备份NN先 SSH 到主NN，调用一个方法将主变为备；2. kill -9 杀掉进程； 3. 调用事先准备好的脚本，关机。

详见 hdfs_HA

四、HDFS内部存储机制：

考虑到可靠性和写入性能（机架间带宽较低），会在当前节点存储一个副本，在另外一个机架上选两个节点，分别放俩副本。

五、HDFS文件写入流程：

1. 客户端向nameNode发出写入请求

2.nameNode进行一系列检查，目录是否已存在，当前用户是否有权限等

3.nameNode回复一个允许写入的应答

4.client将文件切分成多个block块（大小使用默认配置，或者自身配置?若自身有配置，会覆盖默认配置）

5.向nameNode请求上传第一个block块

6.检查dataNode的一些信息

7.返回上传的dataNode列表

8.向dataNode请求建立block传输的管道

9.以package方式传输文件，例如，若有3个dataNode，先传入datanode1,由datanode1写入磁盘同时传给datanode2，datanode2写入磁盘同时传给datanode3，dn3存储完会发送一个成功的消息给dn2，dn2写入成功并受到dn3的消息后，发送一个成功的消息给dn1，同理由dn1返回成功的消息给client；client完成第一个bolock块的发送后，继续进行第5步，请求上传第二个block块，以此类推。

10.上传成功后，client向namenode发送写入成功的消息

11.namenode 进行commit，写入完成。

图见 hdfs_write

六、HDFS文件读取流程：

1.client向NameNode发送读取请求

2.nameNode检查目录树、权限等信息，将block块及对应datanode列表信息返回给client，其中，dn会根据与客户端的距离，由近及远排列。

3.client与最近的datanode连接，获取数据

4.将获取到的block拼装成完整的文件

图见 hdfs_read

七、数据校验：

写入文件时校验：写入前会计算一个校验和，并跟随block存储到dn中，最后一个dn写入完成时，再计算一个校验和并与之对比，若不同，抛出异常。

读取时校验：从dn读取block块后，计算一个校验和，并与block存储的校验和进行对比，若不同，通知NameNode DN上block块损坏，Namenode通过心跳通知DN删除损坏的block，并在其他节点增加一个备份，保持block数目一致。

八、HDFS常用文件操作与管理

多练习。

九、增加、删除一个Datenode时应如何操作？

增加dataNode：从其他dataNode节点拷贝一个hadoop安装包（含配置文件），然后利用脚本单独启动该节点，然后利用 start-balancer.sh -threshold 平衡各个节点的存储。

删除dataNode：将要删除的dataNode加入NameNode黑名单列表中（hsfd-site.xml中，设置dfs.hosts.excludes，加入要拉黑的主机名/IP ），然后刷新 hdfs dfsadmin -refreshNodes。

最后编辑于：2018.08.23 14:36:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

HDFS

推荐阅读更多精彩内容