大数据(8)：HBase

一、HBase 是什么

HBase

HBase 是一个基于 HDFS 的、分布式的、面向列的开源数据库，是一种 NoSQL 数据库，这意味着它不像传统的 RDBMS 数据库那样支持 SQL 作为查询语言，从技术上来讲，它更像是分布式存储而不是分布式数据库，它缺少很多 RDBMS 系统的特性，比如列类型，辅助索引，触发器，和高级查询语言等待。

由于这些特性，不是所有情况下 HBase 都适合。

首先数据库量要足够多，如果有上十亿行数据，那么 Hbase 是一个很好的选项，如果只有几百万行甚至不到的数据量，RDBMS 是一个很好的选择。因为数据量小的话，真正能工作的机器量少，剩余的机器都处于空闲的状态

其次，如果不需要辅助索引，静态类型的列，事务等特性，一个已经用 RDBMS 的系统想要切换到 Hbase，则需要重新设计系统。

最后，保证硬件资源足够，HDFS 集群在少于 5 个节点的时候，不能表现的很好。因为 HDFS 默认的复制数量是3，再加上一个 NameNode。因此节点数量太少时不推荐使用 HBase。

二、HBase 架构

HBase 依赖于 ZooKeeper 和 HDFS。HBase 的整体架构如图：

HBase 架构

1、Zookeeper
HBase 通过 Zookeeper 来做 master 的高可用 (保证集群中只有 1 个 master 在运行)、RegionServer 的监控 (若 RegionSevrer 有异常，回调通知 Master RegionServer 上下线的信息)、元数据的入口以及集群配置的维护等工作。

2、HMaster
HMaster 是处理 DDL 的请求，DML 的请求通过 ZK 直接分发到 HRegionServer，不经过 HMaster。因此 HMaster 宕机不会影响客户端的读写请求；但是无法进行 create 'stu4', 'info' 等 DDL 操作。当原有的 Meta 元数据信息改变时也无法维护。

3、HDFS
为 Hbase 提供最终的底层数据存储服务，所有的 HBase 数据都存储在 HDFS 文件中。DataNode 负责存储 Region Server 所管理的数据。

4、HRegionServer
HRegionServer (可以简单的理解为一台服务器，虽然不准确) 直接负责客户端的读写请求，是真正的“干活”的节点。其功能概括如下：管理 HMaster 为其分配的 HRegion，处理来自客户端的读写请求，负责和底层 HDFS 的交互 (存储数据到 HDFS)，负责 HRegion 变大以后的拆分，负责 StoreFile 的合并工作，刷新缓存到 HDFS，维护 HLog。

5、HRegion
HBase 是分布式的。所以可以断定：HBase 一张表的数据会分到多台机器上的。那 HBase 是怎么分割一张表的数据的呢？用的就是 RowKey 来切分，其实就是表的横向切割。说白了就是一个 HRegion 上，存储 HBase 表的一部分数据。

HBase 表会根据 RowKey 将数据切分成不同的 HRegion 存储在 RegionServer 中。在一个 RegionServer 中可以有多个不同的 HRegion，但同一个 rowkey 的 HRegion 不会被拆分到多个服务器上。

所以，最开始只有一个 HRegion，随着数据量的不断增加而分裂，默认是当 HRegion 达到 10G 时进行切分。

6、Store
HRegion下面有 Store，那 Store 是什么呢？创建一个 HBase 表首先要定义列族，列是在列族之下的，列可以随意添加。同一个列族的数据是存储在一起的，所以一个列族的数据是存储在一个 Store 里边的。有几个列族，也就有几个 Store。

7、HLog
HLog 是用来容灾。当往 HBase 中写数据时，数据会先写入内存 MemStore 中保留一段时间，当 MemStore 达到一定的阈值 (默认128M) 时，再将数据再写进磁盘，形成 StoreFile。

HLog

这样做的好处是避免创建很多小文件，但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据会先写在 WAL (Write-Ahead Log) 文件中，然后再写入内存，所以在系统出现故障的时候，数据可以通过这个日志文件重建。

8、HFile
HFile 是 HBase 中 KeyValue 数据的存储格式，HFile 是 Hadoop 的二进制格式文件，实际上 StoreFile 就是对 HFile 做了轻量级包装，即 StoreFile 底层就是 HFile。

HFile 结构

三、HBase 数据模型

逻辑存储

在逻辑存储中，HBase 表由行和列组成，每行由行键（row key）来标识，一个列族 (Column Family) 中可以包含任意多个列 (Column)，在 HBase 中用列修饰符 Column Qualifier 来标识每个列。

在 HBase 中，先有列族，后有列。

HBase Logical Table

这里有一张表，两个列族，分别是 personal 和 contact，每个列族下又可以有多个列。HBase 表的每一行中，列的组成都是灵活的，行与行之间的列不需要相同。

同一个列族里面的数据存储在一个文件中，当这个文件达到一定大小后，会进行分裂形成多个 region。

当一个行键在不同的列族中都有相应的列值的话，不同列族中的文件都会存储这个行键的值。也就是说，一行可能包含多个列族，一个列族有多个列，对某一行而言，某列族文件中只存储了这一行键在列族中有值的那些列，没有不会存储（不存null）。

物理存储

在物理存储上，HBase 采用列式存储，将每列抽出来，然后关联上 row key。也就是说👆上图中，实际的存储是：

HBase Physical Table

当数据写到 HBase 的时候都会被记录一个时间戳，这个时间戳被我们当做一个版本。比如说，我们修改或者删除某一条的时候，本质上是往里边新增一条数据，记录的版本加一了而已。

当我们需要定位一个 cell 时，将通过三级定位：RowKey、Column Family:Column、Time Stamp。

1、RowKey
RowKey 是用来检索记录的主键。访问 HBASE table 中的行，只有三种方式：

通过单个 RowKey 访问
通过 RowKey 的 range（正则）
全表扫描

RowKey 可以是任意字符串 (最大 64KB，实际应用中一般为 10-100 bytes)，在 HBase 内部，RowKey 保存为字节数组。存储时，数据按照 RowKey 的字典序 (byte order) 排序存储。设计 RowKey 时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。

同时也要防止热点问题。如果我们有多个 HRegion，而大部分 rowkey 的前缀相同，那么相同前缀的 rowkey 都挤在相同的 HRegion 上，而分配给其他的HRegion数量是很少的，这样就只有少数几台服务器在工作，无法发挥集群的优势。

如果是这种情况，我们要做的是什么？对 RowKey 散列就好了，那分配到 HRegion 的时候就比较均匀，少了热点的问题。

2、Column Family
列族：HBase 表中的每个列，都归属于某个列族。列族是表的的一部分 (列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如 personal:name，personal:age 都属于 personal 这个列族。不建议一个表超过 2 个列族。

3、Time Stamp
每个 Cell 都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳可以由在数据写入时自动赋值，也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。

每个 Cell 中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。为了避免数据存在过多版本造成的的管理负担，HBase 提供了两种数据版本回收方式。一是保存数据的最新 n 个版本，二是保存最近一段时间内的版本。用户可以针对每个列族进行设置。

4、Cell
Cell 也就是逻辑存储中的每个单元格，由 {rowkey, column Family:column, version} 唯一确定。Cell 中的数据是没有类型的，全部是字节码形式存贮。关键字：无类型、字节码。

四、HBase 安装

说了这么多 hbase 的架构和模型，但还没有具体使用 hbase，接下来就开始安装使用。

1、安装 zk 和 Hadoop
由于 HBase 依赖于 ZooKeeper 和 HDFS，所以必须先安装 JKD、ZooKeeper 和 Hadoop。关于这些软件的安装可以参看《大数据(1)：Hadoop 搭建》和《大数据(7)：ZooKeeper》。

2、下载解压
在官网下载 Hbase 安装包，然后解压。

$ tar -xzvf hbase-x.y.z-bin.tar.gz

3、配置环境变量

$ vim /etc/profile

export HBASE_HOME=/Users/Downloads/soft/hbase
export PATH=$PATH:$HBASE_HOME/bin

4、验证安装是否成功

$ hbase version

如果出现下面的字样，说明安装成功。

HBase 2.2.2
Source code repository git://6ad68c41b902/opt/hbase-rm/output/hbase revision=e6513a76c91cceda95dad7af246ac81d46fa2589
Compiled by hbase-rm on Sat Oct 19 10:10:12 UTC 2019
From source with checksum 4d23f97701e395c5d34db1882ac5021b

5、配置 hbase
编辑 hbase/conf/hbase-env.sh 文件，配置 JDK 路径，并禁用 hbase 自带的 zk，使用整个集群统一管理的 zk。

export JAVA_HOME=/soft/jdk
export HBASE_MANAGES_ZK=false

编辑 hbase/conf/hbase-site.xml 文件：

<!-- 使用分布式 -->
<property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
</property>
<!-- 指定hbase数据在hdfs上的存放路径 -->
<property>
    <name>hbase.rootdir</name>
    <value>hdfs://hdfspath:8020/hbase</value>
</property>
<!-- 配置zk地址，多个地址用逗号(,)分割 -->
<property>
    <name>hbase.zookeeper.quorum</name>
    <value>zkpath:2181</value>
</property>
<!-- zk的本地目录 -->
<property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/centos/zookeeper</value>
</property>
<property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
</property>

6、配置 regionservers
新建/编辑 hbase/conf/regionservers 文件，加入从节点地址。

s202
s203
s204

五、使用 HBase

HBase 终于安装好了，接下来该启动，然后对 HBase 一顿操作~~

1、启动 zookeeper 集群：$ zkServer.sh start
2、启动 HDFS：$ start-dfs.sh
3、启动 Hbase：$ start-hbase.sh
4、访问 http://localhost:16010，若出现下图，说明启动成功。

Hbase

使用 $ hbase shell 进入 Hbase 命令行。

$ hbase shell
HBase Shell
Use "help" to get list of supported commands.
Use "exit" to quit this interactive shell.
For Reference, please visit: http://hbase.apache.org/2.0/book.html#shell
Version 2.2.2, re6513a76c91cceda95dad7af246ac81d46fa2589, Sat Oct 19 10:10:12 UTC 2019
Took 0.0052 seconds

先看一下提示，其实是不是有一句很重要的话：Use "help" to get list of supported commands. 使用 help 列出支持的命令。由于命令太多，这里只挑几个常用的。

list_namespace：列出名字空间，类似于 MySQL 里面的数据库。这里有两个名字空间，default 和 hbase。

hbase> list_namespace
NAMESPACE
default
hbase                                                                                                         
2 row(s)
Took 0.0344 seconds

list_namespace_tables：列出名字空间下的表，列出 hbase 名字空间下有哪些表。这里有 meta 和 namespace 两张表。

hbase> list_namespace_tables 'hbase'
TABLE                                                                                                                             
meta
namespace
2 row(s)
Took 0.0158 seconds

create_namespace: 创建名字空间。

hbase> create_namespace 'ns1'

create：创建表。在 ns1 名字空间下，创建 t1 表，列族名为 f1。注意在创建表时必须指定列族名。

hbase> create 'ns1:t1', 'f1'

put：新增数据。这里 put 了一行三列数据，rowkey 为 row1。

hbase> put 'ns1:t1', 'row1',' f1:id', 100
hbase> put 'ns1:t1', 'row1', 'f1:name', 'tom'
hbase> put 'ns1:t1', 'row1',' f1:age', 12

get：根据 rowkey 获取数据。

hbase> get 'ns1:t1', 'row1'
COLUMN                               CELL                                                                                                     
 f1:age                              timestamp=1595945760416, value=12
 f1:id                               timestamp=1595945331993, value=100
 f1:name                             timestamp=1595945360529, value=tom
1 row(s)
Took 0.0546 seconds

scan：扫描表。

hbase> scan 'ns1:t1'
ROW                                  COLUMN+CELL                                                                                              
 row1                                column=f1:age, timestamp=1595945760416, value=12
 row1                                column=f1:id, timestamp=1595945331993, value=100
 row1                                column=f1:name, timestamp=1595945360529, value=tom
1 row(s)
Took 0.0313 seconds

六、HBase 寻址机制

在上面的操作过程中，有一张很重要的表：hbase:mate。这是一张描述 HBase 表的表，也就是元数据表。

HBase 是分布式的，需要查找的数据到底在哪台服务器上呢？这时就需要先查 hbase:mate 表，hbase 所有表的基础信息都记录在 hbase:mate 中。

使用 scan 命令可查看 meta 表的结构，如图所示：

hbase:mate

当在 HBase 查找数据时，需要先查询 hbase:mate 表，获取真实数据所在 RegionServer 的地址，并将相关信息缓存下来，以便下一次快速访问，注意这时只知道了真实数据在哪台服务器上。然后根据获取到的服务器信息，再去对应的 RegionServer 获取真实的数据。

但是 hbase:mate 表又在哪个 RegionServer 上呢？hbase:mate 是张很特殊的表，它存放其他所有表的信息，但自己的信息存放在 zk 上，所以 Hbsae 依赖于 zk。

hbase 寻找方式

最后

最后再来回顾一下这篇文章写了什么：

HBase 是一个 NoSQL 数据库，一般我们用它来存储海量的数据（基于 HDFS 分布式文件系统上构建的）；
HBase 的一行记录由一个 RowKey 和一个或多个的列以及它的值所组成。先有列族后有列，列可以随意添加。
HBase 的增删改记录都有「版本」，默认以时间戳的方式实现。
RowKey 的设计如果没有特殊的业务性，最好设计为散列的，这样避免热点数据分布在同一个 HRegionServer 中。
HBase 的读写都经过 Zookeeper 去拉取 meta 数据，定位到对应的 HRegion，然后找到 HRegionServer。

最后编辑于：2021.09.16 16:07:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,527评论 5赞 470
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,314评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,535评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,006评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,961评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,220评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,664评论 3赞 392
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,351评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,481评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,397评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,443评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,123评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,713评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,801评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,010评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,494评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,075评论 2赞 341