之前有过一篇文章讲述CDH5.16.1如何整合phoenix,但是,但是,但是,这个版本整合的是phoenix4.7,这个版本无法使用分页查询,...
最近有个需求,就是SpringBoot提供一个web接口给业务方,业务方传入参数调接口,接口去执行hive离线计算,一般可能是说直接用jdbc去...
我遇到的业务场景是统计10个维度的用户画像数据,之前我是放在一个shell脚本里串行跑,总共跑下来差不多要9个多小时:从数据预处理、维度统计、数...
最近一直在对历史数据进行清洗,原始数据是纯数据格式,现在要清洗到hbase中,方便后期跟hive进行整合查询。。可能现在基本上都使用spark来...
今天在用hive做一个离线统计的任务,既然是统计,那就是某个ID可能在某个维度有多个值,比如某个部门男女人数分别是多少。 部门ID性别人数000...
最近有一个需求是这样的:原来的数据是存储在MySQL,然后通过Sqoop将MySQL的数据抽取到了HDFS集群上,抽取到HDFS上的数据都是纯数...
CDH中预装的hbase是没有Phoenix的,需要我们手动来集成,下面我们就简单的记录一下笔者集成的流程。 1下载parcels http:/...
kafka集群搭建完成后,对集群进行压测。这样的话,就需要实时查看kafka集群机器的IO情况。那怎么办呢?其实linux是有一个命令来做这个事...
俗话说:磨刀不误砍柴工。。上两篇中,我们介绍完了CDH环境的基本搭建。在这篇中,我们讲述对hive的一个优化措施之一:执行引擎tez。在HDP中...