深入浅出的Hadoop基础原理（二）——HDFS文件系统

文件系统介绍

文件系统的作用就是永久存储数据。计算机可以存储数据的地方是内存，硬盘，优盘，SD 卡等等。如果计算机断电关机，存放在内存里的数据就没有了，而存放在硬盘优盘 SD 卡这些上的数据会仍然存在。硬盘优盘SD 卡上的数据是以文件的形式存在，文件系统就是文件的组织和处理。总之，凡是断电之后不会消失的数据，就必须由文件系统存储和管理。

从用户的角度来说，文件系统需要提供文件的创建，删除，读，写，追加，重命名，查看属性，更改属性等各种功能。文件夹，也叫目录，它的作用类似容器，保存其他文件夹和文件。于是，各级文件夹和各级文件就共同组成了文件系统的层次，看起来象一棵倒放的树，最上层是最大的目录，也叫根目录，然后这个目录包含子目录和文件，子目录又包含更多的子目录和文件，这棵树的术语叫目录树。

起初，Linux 使用的文件系统是Minix 文件系统。但Minix 系统有不少限制，诸如最大文件尺寸只有 64M，文件名最多是14 个字符长度。后来，Linux 内核加入了 VFS，也就是虚拟文件系统Virtual File System。VFS 是Linux 内核和真正文件系统之间的抽象层，它提供统一的接口，真正的文件系统和 Linxu 内核必须通过 VFS 的接口进行沟通。随后，Linux 逐步使用基于 VFS 的ext文件系统，ext2 文件系统，ext3 文件系统等等。基于 VFS，Linux 对 Windows 的FAT 和NTFS 格式也提供支持。

通常情况下，Linux 的文件系统是单机的，也就说，从物理的角度看，文件系统只存储单台计算机的数据。分布式文件系统在物理上分散的计算机上存储数据。比如，NFS（NetWork File System）是一种非常经典的分布式文件系统，它基于 VFS，由 Sun 公司开发的。本质上，NFS 是在物理上分散的计算机之间增加了一个客户-服务器层。对NFS，可以这么理解：计算机 A 有自己的 VFS，计算机 B也有自己的 VFS，那么，如果 A 想操作 B上的文件，A 的数据和命令依次通过的路线是：A 的 VFS-->A 的 NFS 客户端-->网络-->B 的 NFS 服务器端-->B 的 VFS-->B 的文件系统。

HDFS文件系统

Hadoop分布式文件系统，全称Hadoop Distributed File System，也就是HDFS。

Hadoop 借鉴了VFS，也引入了虚拟文件系统机制。HDFS 是 Hadoop 虚拟文件系统的一个具体实现。除了HDFS 文件系统之外，Hadoop 还实现很多其他文件系统，诸如本地文件系统，支持 HTTP 的 HFTP 文件系统，支持 Amazon的 S3 文件系统等等。

HDFS 从设计上来说，主要考虑以下的特征：超大文件，最大能支持 PB 级别的数据；流式数据访问，一次写入，多次读取；在不可靠的文件，故障率高的商用硬件上能运行。Hadoop 的不利之处，是不适应低时间延迟的数据访问，不适应大量的小文件，也不适应多用户写入任意修改文件的情况。

假设有一个 HDFS 集群，那么这个集群有且仅有一台计算机做名字节点 NameNode，有且仅有一台计算机做第二名字节点 SecondaryNameNode ，其他机器都是数据节点 DataNode 。在伪分布式的运行方式下，NameNode，SecodaryNameNode，DataNode 都由同一台机器担任。

NameNode 是 HDFS 的管理者。SecondaryNameNode 是 NameNode 的辅助者，帮助 NameNode 处理一些合并事宜，注意，它不是 NameNode 的热备份，它的功能跟 NameNode 是不同的。DataNode 以数据块的方式分散存储 HDFS 的文件。HDFS 将大文件分割成数据块，每个数据块是 64M，也可以设置成 128M或者 256M，然后将这些数据块以普通文件的形式存放到数据节点上，为了防止 DataNode 意外失效，HDFS 会将每个数据块复制若干份放到不同的数据节点。

执行“ hadoop fs -help”可以看到 HDFS的命令行工具和用法。

最后编辑于：2017.12.07 16:12:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

深入浅出的Hadoop基础原理（二）——HDFS文件系统

推荐阅读更多精彩内容