宏观了解之hadoop生态圈

Apache Hadoop 简称 Hadoop,有两个核心组件:

分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储，以及被称为 MapReduce

的编程框架。

HDFS：它是一个分布式文件系统，最大特点是分布式存储。存在的意义是提供了海量数据存储方案！，因为单个的硬件是无法满足数据的存储，而HDFS就是利用很多个磁盘来合并起来存储（分布式存储），而不会丝毫破坏、妨碍数据的完整性和读取！

HDFS集群(因为是集群,所以每个节点上都需要配置HDFS)由NameNode和DataNode以及Secondary Namenode组成。

NameNode相当于书籍的目录，负责管理整个文件系统的元数据，比如命名空间信息，块信息，以及每一个路径(文件)所对应的数据块信息。

DataNode相当于书籍的内容，负责管理存储的文件数据块(block)，每一个block都可以在多个datanode上存储多个副本(防数据丢失)。一般备份三份，在hadoop的hdfs-site.xml中dfs.replication配置副本数量。

Secondary NameNode的存在是为了帮助HDFS能够更好的工作。因为HDFS中的edit logs会随着时间数据的原因变得很大，从而导致namenode崩溃掉，它的职责是合并NameNode的edit logs到fsimage文件中。这里面的步骤和微观工作机制很多，等以后在微观了解中再持续更新。

MapReduce： MapReduce是hadoop的一个处理海量数据的分布式计算框架，计算速度和saprk当然没得比，它解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题。

MapReduce处理数据分为两个阶段：Map(映射).Reduce(归约)。采用的是KV的形式处理数据，Map阶段获取每一行，再进行切割，也可以附加其他的逻辑，再输出到Reduce，进行统计等逻辑，输出。最后用Driver类来驱动他们连接，运行！

Map和Reduce阶段中间还包含了很多微观的工作机制，比如maptask的计算数量，reducetask和maptask的运行顺序等..在以后的微观了解中持续更新..

Hadoop Streaming：提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本语言或其他编程语言来(C++、C、shell、python等)实现Mapper和 Reducer，对hadoop的扩展性，延伸性,具有开扩的意义。需要注意的是，Streaming方式是基于Unix系统的标准输入输出来进行MapReduce。

Job并通过Socket通信来与Hadopp平台通信，完成Job的执行。任何支持标准输入输出特性的编程语言都可以使用Streaming方式来实现MapReduceJob，基本原理就是输入从Unix系统标准输入，输出使用Unix系统的标准输出。

Hive：Hive可以让一些不会写MapReduce的人也能实现MapReduce的功能！因为它查询的过程走的就是MapReduce，一些一般的需求可以Hive的查询语句直接实现，但是一些复杂的逻辑业务用Hive就非常复杂了，强行用Hive实现的话反而会适得其反，甚至还实现不了！

Hive不同于mysql、oracle、sqlserver、DB2、sqlite、MDB等，因为它们是数据库，hive是一个数据仓库。

数据库通常更关注业务交易处理（OLTP），追求交易的速度，交易完整性，数据的一致性等。

数据仓库更关注数据分析层面（OLAP），强调数据分析的效率，复杂查询的速度，数据之间的相关性分析，所以使用的多维模型，从而提高数据分析的效率。

Hive必须要依赖一个数据库，因为Hive要做一个元数据到原来的映射,每一个原本的数据都需要存到数据库的，假如相对于的数据库被删了,那Hive就没了映射的源头了,就没法用了。

Hive是MapReduce的客户端,因此不需要在每个节点上都配置。在操作Hive的同时，需要将Hadoop的HDFS开启，YARN开启，MAPRED配置好。

Hive有自己的语言：HQL。非常接近于SQL，语法和函数也基本和SQL一样，所以很受J2ee开发人员的青睐。在hadoop上部署了Hive之后，bin/hive开启后,可以直接写HQL(SQL)语句,进行查询对应的数据。

Pig: Pig基于hadoop的一个数据处理框架，使用的是Pig latin语言，底层走的也是MapReduce程序。Pig可以非常方便的处理HDFS.HBase上的数据，主要侧重于数据的查询和分析，而并不是数据的修改和删除。

Pig和Hive一样，都有属于自己的语言，并且底层走的都是MapReduce,都是数据处理的一个框架，那它们分别有什么区别呢？

Pig属于自己的语言叫Pig latin，Hive属于自己的语言叫HQL，Pig操作的数据是存储HDFS，HBase上(这两个上面存储的数据包括结构化.半结构化.非结构化)，而Hive存储的数据是在mysql、oracle等传统数据库(这类数据库存储的数据都是结构化的)。这个是我认为它们之间的最大的区别，半结构化包括数据类型的长短不一，依靠rokey来做唯一存储的(HBase)，非结构化的数据就是一些视频，音频，图片等(HDFS)。结构化就不解释了，参考Mysql的数据存储。

Pig在开发当中使用的很少，因为他有自己的语言pig latin,增加了学习成本。虽然Hive也有自己的语言HQL，但是做J2ee的兄弟比较多，所以会SQL(HQL)的也就多，自然青睐于Hive。这也就是开发中Hive使用人数较多，而Pig使用很少了。

Sqoop：Sqoop是hadoop的数据传输工具,为了能够和HDFS系统之外的数据库系统机型交互,通过sqoop，我们可以方便的将数据从关系数据库导入到HDFS，或者将数据从HDFS导出到关系数据库。

使用Sqoop我们要开启zookeeper服务。

我们要在sqoop的sqoop-env.sh配置文件中，添加export HADOOP_COMMON_HOME、export HADOOP_MAPRED_HOM、export HBASE_HOME、export HIVE_HOME、export ZOOCFGDIR(配置zookeeper下的conf文件路径)、export ZOOKEEPER_HOME。

最后记得把jdbc的驱动到sqoop的lib目录下。

Oozie：Oozie(驯象人)是一个定时调度任务,类似的框架还有Zeus，Azkaban等,Oozie支持调度的任务包括MapReduce,job,shell,spark,Hive等的任务。

Oozie有两个主要功能：Workflow(定时任务流)，Coordinator(定时触发Workflow)；

Workflow：描述任务执行顺序的DAG(有顺序有方向无闭环无死循环)。把各种任务以工作流的方式串联起来，但是前提是保证逻辑正确；

Coordinator：触发Workflow的触发器，触发的条件一般有两种：数据文件达到指定的量，时间条件。

Bundle Job：绑定多个Coordinator。

Oozie定义了一种基于XML的hPDL来描述workflow的DAG。在workflow中定义了控制流节点、动作节点。

控制流节点：定义了流程开始和结束，以及控制流的工作路径。

动作节点：就是在流程过程中执行的一些动作，比如创建文件夹、删除文件等等...

HBase：HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳，每个值是一个未经解释的字符串，没有数据类型；存储形式以kv键值对形式存储，适合于存储非结构化数据，基于列的而不是基于行的模式。HBase于HDFS的结合非常方便和契合。

HBase存储结构：用户在表中存储数据，每一行都有一个可排序的行键和任意多的列，表在水平方向由一个或者多个列族组成，一个列族中可以包含任意多个列，同一个列族里面的数据存储在一起，列族支持动态扩展，可以很轻松地添加一个列族或列，无需预先定义列的数量以及类型，所有列均以字符串形式存储，用户需要自行进行数据。HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留(因为HDFS只允许追加，不允许修改，所以源数据不会删除，添加一条新的数据)。

注：HBase不支持ACID（Atomicity、Consistency、Isolation、Durability），不支持事物，不支持join。

key:HBase的key叫做row key，唯一的，通过哈希来保证唯一，也是有序的，通过ASCII排序。

value:HBase的value可以是半结构化的，也就是存储的属性可长可短，可多可少。value的最大存储值没有测过...

HBase的实现包括三个主要的功能组件：库函数、一个Master主服务器、许多个Region服务器。

库函数：链接到每个客户端。

Master主服务器：负责管理和维护HBase表的分区信息，维护Region服务器列表，分配Region，负载均衡。

Region：Region服务器负责存储和维护分配给自己的Region，处理来自客户端的读写请求，开始只有一个Region，后来不断分裂，Region拆分操作非常快，接近瞬间，因为拆分之后的Region读取的仍然是原存储文件，直到“合并”过程把存储文件异步地写到独立的文件之后，才会读取新文件，同一个Region不会被分拆到多个Region服务器，每个Region服务器存储10-1000个Region。

客户端：客户端并不是直接从Master主服务器上读取数据，而是在获得Region的存储位置信息后，直接从Region服务器上读取数据，客户端并不依赖Master，而是通过Zookeeper来获得Region位置信息，大多数客户端甚至从来不和Master通信，这种设计方式使得Master负载很小。

Mahout：...

Zookeeper：zookeeper是一个开源的分布式协调服务。分布式应用程序可以基于它实现发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、分布式队列等...zookeeper也是一个集群，因此在各个节点上都要配置安装！

zookeeper具有如下特性：一致性、原子性、可靠性、实时性。

一致性：从同一个客户端发起的事务请求，最终将会严格按照其发起顺序被应用到ZooKeeper中。

原子性：所有事务请求的结果在集群中所有机器上的应用情况是一致的，也就是说要么整个集群所有集群都成功应用了某一个事务，要么都没有应用，一定不会出现集群中部分机器应用了该事务，而另外一部分没有应用的情况。

可靠性：一旦服务端成功地应用了一个事务，并完成对客户端的响应，那么该事务所引起的服务端状态变更将会被一直保留下来，除非有另一个事务又对其进行了变更。

实时性：一旦事务被变更，修改，客户端一定能够从服务端读取到最新的数据状态。

zookeeper有三种角色：Leader、Follower、Observer(这种需要配置)。

Leader：通过选举产生，一个zookeeper内只能有一个Leader,通过投票机制选举，半数机制选举，描述不清..所以zookeeper适合安装在奇数台电脑上。Leader服务器为客户端提供读和写服务。

Follower：参与选举的所有机器中，除去Leader那一台机器外,其他的都是Follower。它只提供读服务，不能提供写服务！

Observer：Observer和Follower差不多它只提供读服务，不能提供写服务。Observer与Follower的区别在于：Observer不参与Leader选举机器过程，因此Observer可以在不影响写进程的情况下提升集群的读性能。

zookeeper还有很多方面，比如心跳机制，会话，临时节点，持久节点、ZAB协议等等.zookeeper是一个庞大的生态体系，期待与大家的一起讨论！

上面都是hadoop的组件，下面是hadoop生态圈、spark生态圈的技术组成！

最后编辑于：2017.12.09 03:07:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,924评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,781评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,813评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,264评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,273评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,383评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,800评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,482评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,673评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,497评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,545评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,240评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,802评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,866评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,101评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,673评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,245评论 2赞 341

宏观了解之hadoop生态圈

推荐阅读更多精彩内容