HBase读操作

对于HBase而言读取操作有两种，即get和scan。按实现上来看的话，get请求也是一种scan请求，相当于scan长度为1的请求。对于HBase而言，使用Java API，简单的读流程如下所示

get请求

Configuration conf = HBaseConfiguration.create();
HTable table = new HTable(conf, "tablename");
Get get = newGet(Bytes.toBytes("row1"));
get.addColumn(Bytes.toBytes("colfam1"), Bytes.toBytes("qual1"));
Result result = table.get(get);byte[] val =result.getValue(Bytes.toBytes("colfam1"),Bytes.toBytes("qual1"));

scan请求

public static final byte[] CF = "cf".getBytes();
public static final byte[] ATTR = "attr".getBytes();
...

Table table = ...      // instantiate a Table instance

Scan scan = new Scan();
scan.addColumn(CF, ATTR);
scan.setRowPrefixFilter(Bytes.toBytes("row"));
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
    // process result...
  }
} finally {
  rs.close();  // always close the ResultScanner!
}

scan框架的设计

如果你使用过Redis的scan操作，就知道在Redis中，scan并不会一次性加载所有数据到客户端。尽管Redis的Scan和HBase Scan之间的设计差异很大。但是总体来看，HBase的scan采用的限制一次性RPC传输数据量，分多次请求服务端获取数据。这样做的目的有两点：

当数据量过大的查询容易引起客户端内存溢出。
压缩RegionServer端的机器性能，导致其他业务收到影响。

对于scan来说，具体的操作即rs.next()，如果查询到客户端的缓存中有值则直接返回，若未查询到则向Server进行RPC请求，默认情况下，一次RPC请的数据量大小为2G。

区间切分

在客户端请求服务端获取数据的过程中，首先从ZooKeeper中获取元数据hbase:meta表所在的RegionServer。如果一个scan请求需要在多个region上请求数据的话，客户端在请求前会先对查询区间进行切分。如

scan操作需要查询区间为["b", "f")，这时候有三个region，startkey和endkey的区间为["a", "c")，["c", "e")，["e","g")。这时候客户端会进行切分，把scan操作的查询区间切分为"b", "c")，["c","e")，["e", "f ")。

读流程

Scanner的核心体系包括三层Scanner：RegionScanner，StoreScanner，MemStoreScanner和StoreFileScanner。

关系图如下

Scanner关系图

通过这三层scanner定位到了具体的HFile，接下来要做的就是过滤操作，具体的有Time Range过滤、Rowkey Range过滤以及布隆过滤器。

Scan的过滤流程因为StoreFile中的数据K-V数据都是有序排列的，所有范围性的过滤可以直接查找到范围。
在查找到具体的StoreFile文件之后，就是通过查询HFile的索引，查找到对应的Data Block。
HFile的结构如下图

HFile

可以看到个HFile文件中，都对应着多个Data Block。要查找到对应的Data Block。需要先查询Root IndexBlock去获得地址信息。Root IndexBlock因为常驻在内存中，所以这个查询过程非常快。具体的查询思路是二分法，如查询的rowkey为fc，第一次查询范围是[aa-ee)，第二次为[dd-ff)，第三次为[fa-ff)，正好这个一个Data Block的范围。
之后会把Data Block加载到内存中，然后循环遍历查找到对应的数据。
可以看出，因为多层Index都需要加载到内存中，所以一次查询的IO正常为3次。但是实际上HBase为Block提供了缓存机制，可以将频繁使用的Block缓存在内存中，以便进一步加快实际读取过程。

最后这些读到的数据会被放入一个优先队列中，根据key进行排序。然后依次返回给客户端。

其他优化

当然，HBase也提供了像BlockCache以及MemStore的读写缓存。可以大大优化读效率，具体细节，此篇不做展开。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,552评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,666评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,519评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,180评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,205评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,344评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,781评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,449评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,635评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,467评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,515评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,217评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,775评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,851评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,084评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,637评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,204评论 2赞 341

HBase读操作

scan框架的设计

区间切分

读流程

其他优化

推荐阅读更多精彩内容