240 发简信
IP属地:江苏
  • Resize,w 360,h 240
    Phoenix从4.7升级到4.14

    之前有过一篇文章讲述CDH5.16.1如何整合phoenix,但是,但是,但是,这个版本整合的是phoenix4.7,这个版本无法使用分页查询,...

  • Resize,w 360,h 240
    采坑:java调shell脚本执行hive语句

    最近有个需求,就是SpringBoot提供一个web接口给业务方,业务方传入参数调接口,接口去执行hive离线计算,一般可能是说直接用jdbc去...

  • Resize,w 360,h 240
    记一次hive调优之旅

    我遇到的业务场景是统计10个维度的用户画像数据,之前我是放在一个shell脚本里串行跑,总共跑下来差不多要9个多小时:从数据预处理、维度统计、数...

  • Resize,w 360,h 240
    MapReduce将HDFS数据清洗到多个Hbase表中

    最近一直在对历史数据进行清洗,原始数据是纯数据格式,现在要清洗到hbase中,方便后期跟hive进行整合查询。。可能现在基本上都使用spark来...

  • hive将多行查询成一个json字符串

    今天在用hive做一个离线统计的任务,既然是统计,那就是某个ID可能在某个维度有多个值,比如某个部门男女人数分别是多少。 部门ID性别人数000...

  • Spark读取HDFS数据输出到不同的文件

    最近有一个需求是这样的:原来的数据是存储在MySQL,然后通过Sqoop将MySQL的数据抽取到了HDFS集群上,抽取到HDFS上的数据都是纯数...

  • Resize,w 360,h 240
    大数据之CDH5.16.1集成Phoenix

    CDH中预装的hbase是没有Phoenix的,需要我们手动来集成,下面我们就简单的记录一下笔者集成的流程。 1下载parcels http:/...

  • Resize,w 360,h 240
    iostat对磁盘IO情况实时监控

    kafka集群搭建完成后,对集群进行压测。这样的话,就需要实时查看kafka集群机器的IO情况。那怎么办呢?其实linux是有一个命令来做这个事...

  • Resize,w 360,h 240
    大数据之CDH5.16.1集成Tez0.9.2

    俗话说:磨刀不误砍柴工。。上两篇中,我们介绍完了CDH环境的基本搭建。在这篇中,我们讲述对hive的一个优化措施之一:执行引擎tez。在HDP中...

个人介绍
从java转入大数据,目前从事大数据研发工作