Apache Hadoop 简称 Hadoop,有两个核心组件:
分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储,以及被称为 MapReduce
的编程框架。
HDFS: 它是一个分布式文件系统,最大特点是分布式存储。存在的意义是提供了海量数据存储方案!,因为单个的硬件是无法满足数据的存储,而HDFS就是利用很多个磁盘来合并起来存储(分布式存储),而不会丝毫破坏、妨碍数据的完整性和读取!
HDFS集群(因为是集群,所以每个节点上都需要配置HDFS)由NameNode和DataNode以及Secondary Namenode组成。
NameNode相当于书籍的目录,负责管理整个文件系统的元数据,比如命名空间信息,块信息,以及每一个路径(文件)所对应的数据块信息。
DataNode相当于书籍的内容,负责管理存储的文件数据块(block),每一个block都可以在多个datanode上存储多个副本(防数据丢失)。一般备份三份,在hadoop的hdfs-site.xml中dfs.replication配置副本数量。
Secondary NameNode的存在是为了帮助HDFS能够更好的工作。因为HDFS中的edit logs会随着时间数据的原因变得很大,从而导致namenode崩溃掉,它的职责是合并NameNode的edit logs到fsimage文件中。这里面的步骤和微观工作机制很多,等以后在微观了解中再持续更新。
MapReduce: MapReduce是hadoop的一个处理海量数据的分布式计算框架,计算速度和saprk当然没得比,它解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题。
MapReduce处理数据分为两个阶段:Map(映射).Reduce(归约)。采用的是KV的形式处理数据,Map阶段获取每一行,再进行切割,也可以附加其他的逻辑,再输出到Reduce,进行统计等逻辑,输出。最后用Driver类来驱动他们连接,运行!
Map和Reduce阶段中间还包含了很多微观的工作机制,比如maptask的计算数量,reducetask和maptask的运行顺序等..在以后的微观了解中持续更新..
Hadoop Streaming:提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来(C++、C、shell、python等)实现Mapper和 Reducer,对hadoop的扩展性,延伸性,具有开扩的意义。需要注意的是,Streaming方式是基于Unix系统的标准输入输出来进行MapReduce。
Job并通过Socket通信来与Hadopp平台通信,完成Job的执行。任何支持标准输入输出特性的编程语言都可以使用Streaming方式来实现MapReduceJob,基本原理就是输入从Unix系统标准输入,输出使用Unix系统的标准输出。
Hive:Hive可以让一些不会写MapReduce的人也能实现MapReduce的功能!因为它查询的过程走的就是MapReduce,一些一般的需求可以Hive的查询语句直接实现,但是一些复杂的逻辑业务用Hive就非常复杂了,强行用Hive实现的话反而会适得其反,甚至还实现不了!
Hive不同于mysql、oracle、sqlserver、DB2、sqlite、MDB等,因为它们是数据库,hive是一个数据仓库。
数据库通常更关注业务交易处理(OLTP),追求交易的速度,交易完整性,数据的一致性等。
数据仓库更关注数据分析层面(OLAP),强调数据分析的效率,复杂查询的速度,数据之间的相关性分析,所以使用的多维模型,从而提高数据分析的效率。
Hive必须要依赖一个数据库,因为Hive要做一个元数据到原来的映射,每一个原本的数据都需要存到数据库的,假如相对于的数据库被删了,那Hive就没了映射的源头了,就没法用了。
Hive是MapReduce的客户端,因此不需要在每个节点上都配置。在操作Hive的同时,需要将Hadoop的HDFS开启,YARN开启,MAPRED配置好。
Hive有自己的语言:HQL。非常接近于SQL,语法和函数也基本和SQL一样,所以很受J2ee开发人员的青睐。在hadoop上部署了Hive之后,bin/hive开启后,可以直接写HQL(SQL)语句,进行查询对应的数据。
Pig: Pig基于hadoop的一个数据处理框架,使用的是Pig latin语言,底层走的也是MapReduce程序。Pig可以非常方便的处理HDFS.HBase上的数据,主要侧重于数据的查询和分析,而并不是数据的修改和删除。
Pig和Hive一样,都有属于自己的语言,并且底层走的都是MapReduce,都是数据处理的一个框架,那它们分别有什么区别呢?
Pig属于自己的语言叫Pig latin,Hive属于自己的语言叫HQL,Pig操作的数据是存储HDFS,HBase上(这两个上面存储的数据包括结构化.半结构化.非结构化),而Hive存储的数据是在mysql、oracle等传统数据库(这类数据库存储的数据都是结构化的)。这个是我认为它们之间的最大的区别,半结构化包括数据类型的长短不一,依靠rokey来做唯一存储的(HBase),非结构化的数据就是一些视频,音频,图片等(HDFS)。结构化就不解释了,参考Mysql的数据存储。
Pig在开发当中使用的很少,因为他有自己的语言pig latin,增加了学习成本。虽然Hive也有自己的语言HQL,但是做J2ee的兄弟比较多,所以会SQL(HQL)的也就多,自然青睐于Hive。这也就是开发中Hive使用人数较多,而Pig使用很少了。
Sqoop:Sqoop是hadoop的数据传输工具,为了能够和HDFS系统之外的数据库系统机型交互,通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。
使用Sqoop我们要开启zookeeper服务。
我们要在sqoop的sqoop-env.sh配置文件中,添加export HADOOP_COMMON_HOME、export HADOOP_MAPRED_HOM、export HBASE_HOME、export HIVE_HOME、export ZOOCFGDIR(配置zookeeper下的conf文件路径)、export ZOOKEEPER_HOME。
最后记得把jdbc的驱动到sqoop的lib目录下。
Oozie:Oozie(驯象人)是一个定时调度任务,类似的框架还有Zeus,Azkaban等,Oozie支持调度的任务包括MapReduce,job,shell,spark,Hive等的任务。
Oozie有两个主要功能:Workflow(定时任务流),Coordinator(定时触发Workflow);
Workflow:描述任务执行顺序的DAG(有顺序有方向无闭环无死循环)。把各种任务以工作流的方式串联起来,但是前提是保证逻辑正确;
Coordinator:触发Workflow的触发器,触发的条件一般有两种:数据文件达到指定的量,时间条件。
Bundle Job:绑定多个Coordinator。
Oozie定义了一种基于XML的hPDL来描述workflow的DAG。在workflow中定义了控制流节点、动作节点。
控制流节点:定义了流程开始和结束,以及控制流的工作路径。
动作节点:就是在流程过程中执行的一些动作,比如创建文件夹、删除文件等等...
HBase:HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳,每个值是一个未经解释的字符串,没有数据类型;存储形式以kv键值对形式存储,适合于存储非结构化数据,基于列的而不是基于行的模式。HBase于HDFS的结合非常方便和契合。
HBase存储结构:用户在表中存储数据,每一行都有一个可排序的行键和任意多的列,表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多个列,同一个列族里面的数据存储在一起,列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义列的数量以及类型,所有列均以字符串形式存储,用户需要自行进行数据。HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(因为HDFS只允许追加,不允许修改,所以源数据不会删除,添加一条新的数据)。
注:HBase不支持ACID(Atomicity、Consistency、Isolation、Durability),不支持事物,不支持join。
key:HBase的key叫做row key,唯一的,通过哈希来保证唯一,也是有序的,通过ASCII排序。
value:HBase的value可以是半结构化的,也就是存储的属性可长可短,可多可少。value的最大存储值没有测过...
HBase的实现包括三个主要的功能组件:库函数、一个Master主服务器、许多个Region服务器。
库函数:链接到每个客户端。
Master主服务器:负责管理和维护HBase表的分区信息,维护Region服务器列表,分配Region,负载均衡。
Region:Region服务器负责存储和维护分配给自己的Region,处理来自客户端的读写请求,开始只有一个Region,后来不断分裂,Region拆分操作非常快,接近瞬间,因为拆分之后的Region读取的仍然是原存储文件,直到“合并”过程把存储文件异步地写到独立的文件之后,才会读取新文件,同一个Region不会被分拆到多个Region服务器,每个Region服务器存储10-1000个Region。
客户端:客户端并不是直接从Master主服务器上读取数据,而是在获得Region的存储位置信息后,直接从Region服务器上读取数据,客户端并不依赖Master,而是通过Zookeeper来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小。
Mahout:...
Zookeeper:zookeeper是一个开源的分布式协调服务。分布式应用程序可以基于它实现发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、分布式队列等...zookeeper也是一个集群,因此在各个节点上都要配置安装!
zookeeper具有如下特性:一致性、原子性、可靠性、实时性。
一致性:从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到ZooKeeper中。
原子性:所有事务请求的结果在集群中所有机器上的应用情况是一致的,也就是说要么整个集群所有集群都成功应用了某一个事务,要么都没有应用,一定不会出现集群中部分机器应用了该事务,而另外一部分没有应用的情况。
可靠性:一旦服务端成功地应用了一个事务,并完成对客户端的响应,那么该事务所引起的服务端状态变更将会被一直保留下来,除非有另一个事务又对其进行了变更。
实时性:一旦事务被变更,修改,客户端一定能够从服务端读取到最新的数据状态。
zookeeper有三种角色:Leader、Follower、Observer(这种需要配置)。
Leader:通过选举产生,一个zookeeper内只能有一个Leader,通过投票机制选举,半数机制选举,描述不清..所以zookeeper适合安装在奇数台电脑上。Leader服务器为客户端提供读和写服务。
Follower:参与选举的所有机器中,除去Leader那一台机器外,其他的都是Follower。它只提供读服务,不能提供写服务!
Observer:Observer和Follower差不多它只提供读服务,不能提供写服务。Observer与Follower的区别在于:Observer不参与Leader选举机器过程,因此Observer可以在不影响写进程的情况下提升集群的读性能。
zookeeper还有很多方面,比如心跳机制,会话,临时节点,持久节点、ZAB协议等等.zookeeper是一个庞大的生态体系,期待与大家的一起讨论!
上面都是hadoop的组件,下面是hadoop生态圈、spark生态圈的技术组成!