宏观了解之hadoop生态圈

Apache Hadoop 简称 Hadoop,有两个核心组件:

分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储,以及被称为 MapReduce

的编程框架。

HDFS: 它是一个分布式文件系统,最大特点是分布式存储。存在的意义是提供了海量数据存储方案!,因为单个的硬件是无法满足数据的存储,而HDFS就是利用很多个磁盘来合并起来存储(分布式存储),而不会丝毫破坏、妨碍数据的完整性和读取!

HDFS集群(因为是集群,所以每个节点上都需要配置HDFS)由NameNode和DataNode以及Secondary Namenode组成。

    NameNode相当于书籍的目录,负责管理整个文件系统的元数据,比如命名空间信息,块信息,以及每一个路径(文件)所对应的数据块信息。

    DataNode相当于书籍的内容,负责管理存储的文件数据块(block),每一个block都可以在多个datanode上存储多个副本(防数据丢失)。一般备份三份,在hadoop的hdfs-site.xml中dfs.replication配置副本数量。

    Secondary NameNode的存在是为了帮助HDFS能够更好的工作。因为HDFS中的edit logs会随着时间数据的原因变得很大,从而导致namenode崩溃掉,它的职责是合并NameNode的edit logs到fsimage文件中。这里面的步骤和微观工作机制很多,等以后在微观了解中再持续更新。

MapReduce: MapReduce是hadoop的一个处理海量数据的分布式计算框架,计算速度和saprk当然没得比,它解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题。

MapReduce处理数据分为两个阶段:Map(映射).Reduce(归约)。采用的是KV的形式处理数据,Map阶段获取每一行,再进行切割,也可以附加其他的逻辑,再输出到Reduce,进行统计等逻辑,输出。最后用Driver类来驱动他们连接,运行!

Map和Reduce阶段中间还包含了很多微观的工作机制,比如maptask的计算数量,reducetask和maptask的运行顺序等..在以后的微观了解中持续更新..

Hadoop Streaming:提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来(C++、C、shell、python等)实现Mapper和 Reducer,对hadoop的扩展性,延伸性,具有开扩的意义。需要注意的是,Streaming方式是基于Unix系统的标准输入输出来进行MapReduce。

Job并通过Socket通信来与Hadopp平台通信,完成Job的执行。任何支持标准输入输出特性的编程语言都可以使用Streaming方式来实现MapReduceJob,基本原理就是输入从Unix系统标准输入,输出使用Unix系统的标准输出。

Hive:Hive可以让一些不会写MapReduce的人也能实现MapReduce的功能!因为它查询的过程走的就是MapReduce,一些一般的需求可以Hive的查询语句直接实现,但是一些复杂的逻辑业务用Hive就非常复杂了,强行用Hive实现的话反而会适得其反,甚至还实现不了!

Hive不同于mysql、oracle、sqlserver、DB2、sqlite、MDB等,因为它们是数据库,hive是一个数据仓库。

数据库通常更关注业务交易处理(OLTP),追求交易的速度,交易完整性,数据的一致性等。

数据仓库更关注数据分析层面(OLAP),强调数据分析的效率,复杂查询的速度,数据之间的相关性分析,所以使用的多维模型,从而提高数据分析的效率。

Hive必须要依赖一个数据库,因为Hive要做一个元数据到原来的映射,每一个原本的数据都需要存到数据库的,假如相对于的数据库被删了,那Hive就没了映射的源头了,就没法用了。

Hive是MapReduce的客户端,因此不需要在每个节点上都配置。在操作Hive的同时,需要将Hadoop的HDFS开启,YARN开启,MAPRED配置好。

Hive有自己的语言:HQL。非常接近于SQL,语法和函数也基本和SQL一样,所以很受J2ee开发人员的青睐。在hadoop上部署了Hive之后,bin/hive开启后,可以直接写HQL(SQL)语句,进行查询对应的数据。

Pig:  Pig基于hadoop的一个数据处理框架,使用的是Pig latin语言,底层走的也是MapReduce程序。Pig可以非常方便的处理HDFS.HBase上的数据,主要侧重于数据的查询和分析,而并不是数据的修改和删除。

Pig和Hive一样,都有属于自己的语言,并且底层走的都是MapReduce,都是数据处理的一个框架,那它们分别有什么区别呢?

Pig属于自己的语言叫Pig latin,Hive属于自己的语言叫HQL,Pig操作的数据是存储HDFS,HBase上(这两个上面存储的数据包括结构化.半结构化.非结构化),而Hive存储的数据是在mysql、oracle等传统数据库(这类数据库存储的数据都是结构化的)。这个是我认为它们之间的最大的区别,半结构化包括数据类型的长短不一,依靠rokey来做唯一存储的(HBase),非结构化的数据就是一些视频,音频,图片等(HDFS)。结构化就不解释了,参考Mysql的数据存储。

Pig在开发当中使用的很少,因为他有自己的语言pig latin,增加了学习成本。虽然Hive也有自己的语言HQL,但是做J2ee的兄弟比较多,所以会SQL(HQL)的也就多,自然青睐于Hive。这也就是开发中Hive使用人数较多,而Pig使用很少了。

Sqoop:Sqoop是hadoop的数据传输工具,为了能够和HDFS系统之外的数据库系统机型交互,通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。

使用Sqoop我们要开启zookeeper服务。

我们要在sqoop的sqoop-env.sh配置文件中,添加export HADOOP_COMMON_HOME、export HADOOP_MAPRED_HOM、export HBASE_HOME、export HIVE_HOME、export ZOOCFGDIR(配置zookeeper下的conf文件路径)、export ZOOKEEPER_HOME。

最后记得把jdbc的驱动到sqoop的lib目录下。

Oozie:Oozie(驯象人)是一个定时调度任务,类似的框架还有Zeus,Azkaban等,Oozie支持调度的任务包括MapReduce,job,shell,spark,Hive等的任务。

Oozie有两个主要功能:Workflow(定时任务流),Coordinator(定时触发Workflow);

Workflow:描述任务执行顺序的DAG(有顺序有方向无闭环无死循环)。把各种任务以工作流的方式串联起来,但是前提是保证逻辑正确;

Coordinator:触发Workflow的触发器,触发的条件一般有两种:数据文件达到指定的量,时间条件。

Bundle Job:绑定多个Coordinator。

Oozie定义了一种基于XML的hPDL来描述workflow的DAG。在workflow中定义了控制流节点、动作节点。

控制流节点:定义了流程开始和结束,以及控制流的工作路径。

动作节点:就是在流程过程中执行的一些动作,比如创建文件夹、删除文件等等...

HBase:HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳,每个值是一个未经解释的字符串,没有数据类型;存储形式以kv键值对形式存储,适合于存储非结构化数据,基于列的而不是基于行的模式。HBase于HDFS的结合非常方便和契合。

HBase存储结构:用户在表中存储数据,每一行都有一个可排序的行键和任意多的列,表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多个列,同一个列族里面的数据存储在一起,列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义列的数量以及类型,所有列均以字符串形式存储,用户需要自行进行数据。HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(因为HDFS只允许追加,不允许修改,所以源数据不会删除,添加一条新的数据)。

注:HBase不支持ACID(Atomicity、Consistency、Isolation、Durability),不支持事物,不支持join。

key:HBase的key叫做row key,唯一的,通过哈希来保证唯一,也是有序的,通过ASCII排序。

value:HBase的value可以是半结构化的,也就是存储的属性可长可短,可多可少。value的最大存储值没有测过...

HBase的实现包括三个主要的功能组件:库函数、一个Master主服务器、许多个Region服务器。

库函数:链接到每个客户端。

Master主服务器:负责管理和维护HBase表的分区信息,维护Region服务器列表,分配Region,负载均衡。

Region:Region服务器负责存储和维护分配给自己的Region,处理来自客户端的读写请求,开始只有一个Region,后来不断分裂,Region拆分操作非常快,接近瞬间,因为拆分之后的Region读取的仍然是原存储文件,直到“合并”过程把存储文件异步地写到独立的文件之后,才会读取新文件,同一个Region不会被分拆到多个Region服务器,每个Region服务器存储10-1000个Region。

客户端:客户端并不是直接从Master主服务器上读取数据,而是在获得Region的存储位置信息后,直接从Region服务器上读取数据,客户端并不依赖Master,而是通过Zookeeper来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。

Mahout:...

Zookeeper:zookeeper是一个开源的分布式协调服务。分布式应用程序可以基于它实现发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、分布式队列等...zookeeper也是一个集群,因此在各个节点上都要配置安装!

zookeeper具有如下特性:一致性、原子性、可靠性、实时性。

一致性:从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到ZooKeeper中。

原子性:所有事务请求的结果在集群中所有机器上的应用情况是一致的,也就是说要么整个集群所有集群都成功应用了某一个事务,要么都没有应用,一定不会出现集群中部分机器应用了该事务,而另外一部分没有应用的情况。

可靠性:一旦服务端成功地应用了一个事务,并完成对客户端的响应,那么该事务所引起的服务端状态变更将会被一直保留下来,除非有另一个事务又对其进行了变更。

实时性:一旦事务被变更,修改,客户端一定能够从服务端读取到最新的数据状态。

zookeeper有三种角色:Leader、Follower、Observer(这种需要配置)。

Leader:通过选举产生,一个zookeeper内只能有一个Leader,通过投票机制选举,半数机制选举,描述不清..所以zookeeper适合安装在奇数台电脑上。Leader服务器为客户端提供读和服务。

Follower:参与选举的所有机器中,除去Leader那一台机器外,其他的都是Follower。它只提供读服务,不能提供写服务!

Observer:Observer和Follower差不多它只提供读服务,不能提供写服务。Observer与Follower的区别在于:Observer不参与Leader选举机器过程,因此Observer可以在不影响写进程的情况下提升集群的读性能。

zookeeper还有很多方面,比如心跳机制,会话,临时节点,持久节点、ZAB协议等等.zookeeper是一个庞大的生态体系,期待与大家的一起讨论!

上面都是hadoop的组件,下面是hadoop生态圈、spark生态圈的技术组成!



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,924评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,781评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,813评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,264评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,273评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,383评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,800评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,482评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,673评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,497评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,545评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,240评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,802评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,866评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,101评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,673评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,245评论 2 341

推荐阅读更多精彩内容