大数据——Hadoop让你爱上学习

Hadoop

由于apache版本的Hadoop存在一些BUG,这里使用cdh5.3.6版本的Hadoop

简介

Hadoop是一个可靠的、可扩展的、开源的、高可用的分布式并行计算框架

主要模块

Hadoop Common:为其他Hadoop模块提供基础设施

Hadoop HDFS:一个高可靠的、高吞吐量的分布式文件存储系统

Hadoop MapReduce:一个分布式的离线并行计算框架

Hadoop YARN:一个新的MapReduce框架,负责MapReduce任务调度与资源管理

HDFS架构

主从架构

主节点(只有一个,HA除外):

NameNode(NN):存储元数据(数据块的校验和、时间戳、数据块存储的位置)

SecondaryNameNode(SNN):用来辅助NameNode同步元数据,减轻NameNode压力,不是NameNode的热备

从节点(可以有多个):

DataNode(DN):存储数据块,每一个数据块默认副本数是3份(可修改),如果有两个及以上机架,那么另外的机架必然会至少存在一份副本,防止其中一台机架挂掉(如断电),导致数据完全丢失

数据存取(就近原则)

读取的时候,如果当前机架存在数据,不会到另外一个机架去读取

储存机制

当一个文件上传到HDFS平台时,将会按照128Mb大小切割成数个数据块,并且每个数据块会进行复制,达到设置的副本数。接下来会根据NameNode的平衡机制(平衡各DataNode上储存的数据)分配到不同的DataNode中,并在NameNode中记录元数据

容错机制

可以随意的增删服务器节点

所有datanode会每隔3s向NameNode发送心跳信息(包括数据块的校验和,块报告),NameNode会接收DataNode发送的块的报告,如果规定时间内,NameNode没有接收到DataNode发送的心跳报告,就默认这台机器已经挂掉

如果某台DataNode挂掉或部分数据丢失,这时NameNode收不到这台DataNode发送的心跳报告或者心跳报告信息与元数据不符,将会检查元数据来匹配DataNode中丢失的数据块,并且从另外机架复制数据块达到副本数

SecondaryNameNode辅助过程

启动NameNode后,NameNode将fsimage载入内存,并按顺序执行edits文件中的命令记录

SecondaryNameNode定期通过http get方式从NameNode中获取edits与fsimage,此时NameNode生成新的空edits文件用来接收Client命令,SecondaryNameNode会将读取过来的fsimage加载到内存,按顺序执行edits文件命令,生成新的fsimage文件

SecondaryNameNode将新的fsimage文件发送给NameNode代替原来的fsimage

原本NameNode中的edits文件会记录所有命令,当文件过大时会导致启动NameNode时间过长,启动时NameNode处于安全模式,只读不可写。使用SecondaryNameNode将会减小edits大小,减轻NameNode启动时的压力

YARN架构

资源调度管理框架(负责运行集群中的任务)

主节点(全局的,只有一个,除了HA):

ResourceManager(RM):资源管理服务,接收Client提交的任务请求,并把任务分发到各个节点中运行,并且给NodeManager提供运行时资源

从节点(可以有多个):

NodeManager(NM):资源管理器,负责向ResourceManager申请运行时的资源并管理运行此节点的任务

运行机制

Client提交应用程序(包括用户程序、ApplicationMaster程序、ApplicationMaster启动命令等)到ResourceManager

ResourceManager向NodeManager分配一个Container,并在Container中启动ApplicationMaster

ApplicationMaster向ResourceManager注册,这样用户可以直接通过ResourceManager査看应用程序的运行状态(然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束)

ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源

一旦ApplicationMaster成功申请到资源,便开始与对应的NodeManager通信,要求它启动任务

NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务

各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,使ApplicationMaster能够随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态

应用程序运行完成后,ApplicationMaster通过RPC协议向ResourceManager注销并关闭自己

MapReduce架构

Map

并行处理输入的数据

Reduce

处理Map输出的数据,将Map的结果进行汇总

Shuffle

分为MapTask与ReduceTask

MapTask将数据写到本地磁盘

ReduceTask从每一个MapTask上读取数据

特点

仅适合离线批处理

容错性高、扩展性高

磁盘开销大、效率低

有需要的关注小编

2317384986 yxxy1717

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 思考问题 HDFS的架构 设计前提和目标 专为存储超大文件而设计:hdfs应该能够支持GB级别大小的文件;它应该能...
    Sakura_P阅读 624评论 0 2
  • 即使没读过《圣经》,对西方宗教一无所知的人,也知道亚当和夏娃、知道圣母玛利亚,和遭受苦难的耶稣,甚至知道背叛者犹大...
    极致探索阅读 1,027评论 1 2
  • 早上七点十分起床,淡盐水一杯,小米粥一杯。 上午来例假了,这次没太大感觉。 中午在同事家吃的地锅,土豆青菜和米饭,...
    小婧私人号阅读 51评论 0 0
  • 现在的生活寄托于工作,好像什么都不缺,又总感觉缺些什么。永远不要去揣度人心,因为你无法估量自己的轻薄,更不要...
    徐大宝子阅读 282评论 0 0
  • 一、强烈愿望 有没有一本书让你看过就念念不忘?看到一篇文章,一个视频甚至是一句话你都会自动的与它关联起来。《活法》...
    小团子妈妈阅读 456评论 0 0