HBase优化相关

HBase查询优化

1、设置scan缓存

scanner.SetCaching(10000)

定义一次交互从服务器端传输到客户端的行数。

2、显式地指定列

减少传输的数据

3、关闭ResultScanner

类似mysql的关闭连接

4、禁用块缓存

批量扫描或者全表扫描的时候设置为false，提高扫描的效率；

5、通过HTablePool访问

HTablePool连接线程池可以解决HTable存在的线程不安全的问题，同事通过维护固定数量的HTable对象，能够在程序运行期间复用这些HTable对象，节省资源创建时间和降低堆内存使用空间。

6、使用批量读

7、使用Filter降低客户端压力

8、使用Coprocessor统计行数

9、缓存查询结果

在HBase和客户端之间增加一层cache层，存在则查询cache，不存在则查询HBase。

HBase写入优化

1、关闭写WAL日志

前提是应用可以容忍一定的数据丢失。

2、设置AutoFlush

HTable有个属性AutoFlush，该属性用于支持客户端的批量更新。该属性默认是true，当客户端每收到一条数据，立刻发送给服务器。如果该属性为false，当客户端提交put请求的时候，将该请求在客户端缓存，直到数据达到某个阀值的容量（参数为hbase.client.write.buffer）或者执行hbase.flushcommits（）时，才会向RegionServer提交请求。

这种方式避免了每次根服务器端交互，采用批量提交的方式，所以更高效。

3、预创建Region

预创建Region的方法有2种，一种是使用HBase自带的RegionSplitter工具来预创建Region，另外一种是使用用户自己的分区算法创建region。

4、延迟WAL日志的flush

5、使用HTableTool访问

6、使用批量写

HBase分裂和合并优化

1、优化分裂操作，通过hbsae.hregion.max.filesize参数控制，设置大一些比如设置为100G，采用手工分裂方式选择业务低峰期进行分裂；

2、禁用自动major_compact，通过自动化脚本来控制在业务低峰期进行大合并

HBase重点参数的优化

1、设置合理的RegionServer Handler数量

通过参数hbase.regionserver.handler.count来调整，这个参数的作用是控制RegionServer可以同事处理多少请求的线程数，默认是10.这个值设置比较小的目的是为了防止用户用一个比较大的写缓冲。如果设置太大，会消耗很多的内存，反而导致吞吐量降低；而如果设置太小，会导致请求被阻塞。

对于单次请求内存消耗高的场景（单次写入量很大或scan设置了较大缓存），比较适合比较少的线程数，如果单次请求内存消耗很低，TPS又要求比较高，就应该将该参数调大。可以通过开启RPC级别的日志监控每次请求的内存消耗和GC情况，再来确定一个合理的IO线程数。

一般情况下，将hbase.regionserver.handler.count设置为10的倍数（10xn），n为【2，30】都是正常范围。

2、BlockCache大小设置

BlockCache的大小由于参数hfile.block.cache.size控制，默认是0.25，也就是堆内存的25%，这个参数直接影响数据查询操作的性能。

RegionServer的堆内存分为两部分，一部分作为MemStore，主要用来写；另外一部分作为BlockCache，主要用来读。

写请求会先写入MenStore，RegionServer会给每个Region提供一个MemStore，当MemStore满128M以后，会启动flush刷新到磁盘。当MemStore的总大小超过限制时（heapsize x hbase.regionserver.global.memstore.upperLimit x 0.9）,会强行启动flush进程，从最大的MemStore开始flush直到低于限制。

读请求会先到MemStore中查数据，查不到就到BlockCache中查，再查不到就会到磁盘上读，并把读的结果放到BlockCache中。BlockCache采用LRU策略，在达到上限（heapsize x hfile.block.cache.size x 0.85）后，会启动淘汰机制，淘汰掉最老的一批数据。

在调整大小需要注意：

a、BlockCache和MemStore占比总和不能超过堆内存的80%

b、以读为主的业务多，则调大该值，反之默认即可

c、不要关闭BlockCache

3、设置MemStore的上下限

hbase.regionserver.global.memstore.upperLimit表示RegionServer上所有Region的MemStore的上线，默认是0.4，即但某个RegionServer上所有Region的MemStore的大小达到40%的时候，触发全局flush操作，

hbase.regionserver.global.memstore.upperlowerLimit表示RegionServer上所有Region的Memstore的大小的下线，默认是0.35，即当某个RegionServer上所有Region的MemStore的大小达到35%会后，停止全局flush的操作，而是找到memstore占用最大的Region进行flush。

4、调整阻塞写合并文件数

参数hbase.hstore.blockingStoreFiles用来控制，当flush操作发生时，如果一个Region中的Store内有超过N个StoreFile，则阻塞所有的写请求并进行合并操作，要结合业务场景来考虑此参数的设置。

5、调整MemStore的flush因子

当某个region的memstore超过参数hbase.hregion.memstore.flush.size的倍数时候，阻塞该region的所有请求，触发flush操作，默认是2，要结合业务场景来考虑此参数的设置。

6、调整单个文件的大小

参数hbase.hregion.max.filesize用于定义单个HstoreFile大小，默认为1G，如果超过该值，会触发spilt的操作。一般会将这个值调大，比如到100G，然后使用自动脚本监控和控制spilt的操作。

7、ZooKeeper Session的有效时长

参数zookeeper.session.timeout用于定义连接ZooKeeper的Session的有效时长，默认是180秒，可以根据自己的网络环境和业务需求进行设定。注意，设置的时需要考虑GC的时长问题。

分布式协调系统ZooKeeper优化

1、配置ZooKeeper可i额点个数

a、生产环境最少3个节点，节点需要奇数个，比如3，5，7个等

b、使用独立磁盘，提高性能

2、独立部署ZooKeeper集群

表设计优化

1、开始布隆过滤器

启用布隆过滤器可以节省度磁盘的过程，可以有助于降低读取操作的延迟。布隆过滤器的设置有三种，NONE、ROW和ROWCOL，默认是NONE。在建表的时候使用BLOOMFILTER参数指定，比如：BLOOMFILTER => 'ROW'。也可以使用alter修改设置。

2、调整列族块大小

HBase数据存储在StoreFile中，StoreFile由HFile块组成，HFile块是HBase从StoreFile中读取数据时的最小数据单位。HFile块大小是一个重要的调优参数。在调整之前，可以使用HFile工具查看表的HFile文件中的平均键值对规模（avgKeyLen和avgVauleLen），然后根据键值对规模修改列族的块大小。使用BLOCKSIZE指定，比如：BLOCKSIZE => '32768'

3、设置In Memory属性

HBase RegionServer的BlockCache包含三个级别的优先级队列，分别如下：

a、Single：如果一个Block第一次被访问，则放在这一队列中

b、Multi：如果一个Block被多次访问，则从Single队列移到Multi队列中

c、In Memory：如果一个Block是In Memory的，则放到该队列中。

如果某个列族访问特别频繁的话，可以考虑讲In Memory属性设置为True。但是如果一个数据量非常大的用户表的列族设置为了In Memory，则可能会导致内存溢出。

4、设置列族的版本数

版本数（VSESIONS）的默认值为3，如果更新非常频繁，可以设置为1，尽快淘汰无用数据，节省存储空间和提升查询效率。

5、设置TTL属性

TTL属性是用来设置列族中单元格存活的时间，过期的数据会自动删除。对于有明确保留时间的数据，设置TTL能自动清理数据，非常方便。

HBase学习笔记（二）