HBase金融大数据乾坤大挪移

随着最后一台设备的退还，标志着整个10P+的HBase数据迁移完成。目前新集群已经在新机房平稳运行2个月，从监控图明显反应出新集群查询耗时更低，更稳定。从消费的曲线来看，也更平滑，基本不会有大量毛刺的情况出现。一颗心也落了地。终于可以腾出时间，来好好梳理一下这次数据大迁移的过程。

第一次主导HBase大数据的数据迁移，由于缺乏类似的实战经验，迁移期间战战兢兢、如履薄冰。幸亏有老司机的协助，才得以顺利完成。总结一下整个项目的过程以及遇到的问题，吸取经验和教训，以便后面能做得更好。同时也为其他运维HBase的技术朋友提供一个成功的案例参考。

项目背景

某日，收到资源测的通知：机房即将裁撤，需要尽快将机房所有的业务都迁移到新机房，这里面涉及到自己刚接手的HBase集群，集群存储有近10P的金融数据，这个集群承担着每秒上百万次的数据写入，存储的都是重要的金融数据。很多关键流程都依赖HBase服务，比如退款、历史订单查询、证书查询、客服系统等，这些重要业务都是不能出现中断的。

概括一下需求：2个多月的时间里，需要将近10P的金融数据平滑迁移到新机房，并且中间不能出现数据丢失和业务中断。

项目挑战

这个项目面临的蛮大的挑战，主要的挑战简单概括日下：

1、数据量巨大，涉及10P+的数据

2、不能停业务，只能平滑迁移

3、金融数据数据不能丢，不能错

4、缺乏大规模数据的迁移经验，只能摸着石头过河

瞬间感觉压力巨大，因为之前一直做MySQL相关的工作，这次要处理的是分布式数据库HBase的数据迁移。从最近的学习来看，HBase（底层存储用的HDFS）的运维本身要比MySQL的运维要难得多，加上这个项目面临的几个大挑战，不免临事而惧，只能沉下心来好好规划，详细地去测试验证。从方案选型、到方案的测试、验证和实施，每个步骤都需要做到心中有数。先来介绍方案的选型。

迁移方案

考察了所有的HBase的数据迁移方案，以及各个方案适用场景，这里可以参考如下两个KM文章针对不同数据迁移方式的讨论：

链接1：https://www.jianshu.com/p/8d091591d872（玩转HBase快照）

链接2：https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html（HBase数据迁移方案介绍）

也参考了其他公司在数据迁移方案上经验，比如snapshot和CopyTable的讨论可以参见：http://hbase-help.com/?/question/35

最终选择了snapshot+bulkload+集群双写的方案

如下图所示的迁移方案：

大致方案为：开启双写后，使用SnapShot技术对集群A的表做好快照，然后通过Export snapshot将快照传输到集群B，并使用BuldLoad在B集群进行导入，从而使得集群数据一致。

具体步骤如下：

1、在集群A和集群B开启双写

备注：需要特别注意B集群delete标记参数（hbase.hstore.time.to.purge.deletes）的配置，因为从在A集群做快照到Export snapshot传输到B集群在到使用BuldLoad在B集群完成导入是需要时间的，尤其是如果一个表很大，需要的时间更久，甚至可能超过好几个小时。因此必须保证B集群的hbase.hstore.time.to.purge.deletes参数大于最大的表迁移时间，否则可能会导致删除的数据又“奇迹”般地出现在B集群中。

2、迁移表结构

3、针对表创建snapshot

备注：snapshot相关的知识可以参考：https://www.jianshu.com/p/8d091591d872（玩转HBase快照）

4、通过Export Snapshot将快照传输到B集群

5、使用BulkLoad将数据导入到B集群

6、对迁移的表进行集群间对账，确认数据是否一致

7、灰度切换表的查询到B集群

统筹规划

在数据迁移之前，我们考虑了之前集群存在的问题，根据这些问题我们对新集群做了非常多的优化，这是系统思维在运维过程中比较好的运用了。这些问题主要体现在：

1、版本比较旧（HBase 0.98 HDFS 2.2），对于新功能不支持，比如异构存储；性能也不如新版本号；

2、group比较多，导致机器相对比较分散

3、表的region数量设计不太合理，部分表数量比较小，region数量很多

4、有的表没有开启布隆过滤器，性能比较差

5、部分参数没有优化（由于重启整个集群成本比较高，部分参数一直没有优化）

6、全链路监控未完全打通，有的问题无法快速发现

针对这部分问题，在迁移集群就顺便做了优化，从目前新集群的运行情况来看，优化效果还是非常好的。

具体优化分类如下:

1、版本升级优化

HBase0.98 ---> 1.26

HDFS 2.2 ---> 2.7

备注：兼容性评估和测试未发现异常

2、硬件层面优化

a、充分利用TSC10自带的一个SSD盘，HDFS的异构存储将WAL日志写入到SSD盘，充分利用资源的同时提升性能；

备注：关于异构存储实战相关的知识，可以访问：https://www.jianshu.com/p/167d7677a050（HDFS异构存储实战）

b、将regionserver的配置从24G调整到48G，因为TSC10的内存为64G

3、运营层面优化

a、统筹各个类型表的历史数据情况，重新调整表的region数，减少必须要的元数据空间损耗

b、减少集群group数量，从原来的7个变成5个，减少机器分散；

备注：关于group的相关知识可以访问：https://www.jianshu.com/p/04d56a2c8b5c（HBase隔离方案实战）

c、对集群进行本地化优化，历史数据全量进行major_compact

4、参数优化

建表参数优化：

a、hbase.hstore.compaction.min 调整为3，提升自动合并效率

b、BLOOMFILTER => 'ROW' ，提升查询性能

HBase参数优化

a、hbase.ipc.server.callqueue.read.ratio 指定读的所占比率，保证读操作顺利进行

b、hbase.wal.storage.policy 确定hbase写WAL的策略，提升写WAL的性能，充分利用资源

HDFS参数优化

这里主要是减少机器故障后给整个集群带来的性能冲击。

a、dfs.namenode.replication.interval 减少副本计算频率

b、dfs.namenode.replication.work.multiplier.per.iteration 减少每次迁移的block数

5、监控层面优化：

a、增加了全链路的监控上报和告警（DBSYNC、TDSORT），快速发现机器负载异常、表不存在、region未上线、RegionServer超时等问题；

b、增加了采集容灾调整，对发现只配置了单台采集机器但实例本身有多台备机的问题进行配置改造；

c、增加了采集延迟场景的监控，用于快速发现切换到跨机房导致的采集延迟问题；

遇到问题

迁移过程中，遇到了很多的问题，分别总感觉如下：

1、dfs.datanode.du.reserved参数引起的WAL无法写入SSD的问题

原因是因为我们配置了dfs.datanode.du.reserved为200G，意思是HDFS数据盘保留200G的空间，而我们的SSD盘（规划用来存储WAL的盘也只有200G，加上系统保留5%的空间，总计可用空间还不足200G），因此在写SSD之前空间少于200G，因此WAL也写入到了SATA盘，导致SSD使用率为0。解决办法具体的场景查阅文章：https://www.jianshu.com/p/508449d8f12c

2、使用Mapreduce传输快照文件的各类异常

在使用Mapreduce将快照文件Export到新集群的时候，出现过各种异常，包括搭建以及调试的时候的异常，问题都总结在了下面的两篇文章中，有兴趣的可以自行了解：

MR相关问题排查思路（https://www.jianshu.com/p/ebd469da07d2）

HBase混布MapReduce集群学习记录（https://www.cnblogs.com/ballwql/p/9278389.html）

3、配置WAL写SSD后，很快发现SSD被用光

在之前的规划统计中，WAL日志应该在5T以内，折算到每台机器为55G左右。如果都写SSD，我们为WAL分配了120G的空间，因此正常情况下每台机器的WAL使用率为55%~60%之间，为什么会使用率为99%呢？经过追踪namenode的日志，发现有大量的非WAL数据也写入到了SSD中，因此导致SSD很快耗尽。根本原因是版本bug导致的获取盘的时候把SSD也当做普通的存储处理，版本修复后，正常。这里涉及到需要将已经写入到SSD的数据迁移到SATA中，在HDFS异构存储实战中已有详细的描述，有兴趣的可以阅读这篇文章，《HDFS异构存储实战》（https://www.jianshu.com/p/167d7677a050）

4、BulkLoad出现文件不存在的异常

在检查BulkLoad结果的时候，有的时候回出现文件不存在的exceptions,访问频繁的表尤其容易出现，异常日志如下：

org.apache.hadoop.io.MultipleIOException: 6 exceptions [java.io.FileNotFoundException: File does not exist: /hbase/archive/data/default/t_tcpay_list_201611/c520120e9b6cd2f49851931ff68ad97a/I/ccb7414cc0054c25aeb8da63c4bf2bda

在去老集群也找不到对应的region，后来跟踪文件并模拟线上个环境重现确认是compact操作导致Hfile移动到了archive目录下，而程序中是逐个读取archive目录下对应的Hfile，因为BulkLoad导入大表需要比较长的时间，大概率会遇到compact的情景，导致读取文件列表的时候文件存在，到真正导入的时候，该文件已经被清理掉了。其实这个并不影响数据准确性，调整异常捕获的关键字并通过对账来解决。

5、数据冗余问题

在迁移完数据进行核对和业务灰度的时候，发现有部分记录出现冗余，具体表现为记录有两台，一条是新数据一条是老数据，如下图：

初步怀疑是迁移过程中delete标记丢失导致，目前在测试环境无法重现该问题，已记录tapd持续跟进中。已经通过程序修复冗余数据。

迁移过程中遇到太多的问题，这里就不一一列举出来，有兴趣的同学可以访问Fit HBase专门的K吧，我们遇到的问题都会整理到这个K吧中Fit HBase专门的K吧，（http://km.oa.com/group/34126?kmref=km_header），希望能和更多的同行交流HBase中遇到的问题和使用心得。

运营质量

这里从接入业务的查询HBase的成功率和平均延时来确定HBase运营质量的改善情况：

1、HBase订单可用性和延迟情况

2、HBase交易单可用性和延迟情况

感谢

回顾整个数据迁移的过程，从集群搭建、参数调优、方案制定、方案测试、问题解决、业务切换，再到最后的设备退还，整个过程痛苦而漫长。这几个月来每天都要面对大量没有遇到过的问题和场景，每天思考最多的就是如何快速的学习，快速地解决问题。一路走来，跌跌撞撞，但收获巨大。从对Hadoop和HBase懵懵懂懂，到对HBase集群运维逐步得心应手，心中已了无恐惧，因为我的背后站着一个非常棒的团队，有idavidjiang（姜老师）和steven老大强力支持，还有TEG强大的老司机们护航，还有很多同事的默默支持，。总之，特别的感谢大家，有了你们的支持，才能实现HBase集群的无缝迁移。

最后编辑于：2019.03.05 23:33:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342