240 发简信
IP属地:北京
  • spark读取parquet文件优化

    业务背景 Spark读取文件时,对于可切分的文件,会将文件切分为一系列 Split ,每个Split对应一个Task。一般而言,Split的大小...

  • SQL函数之GROUPING_ID的使用

    前言 今日翻看项目之前某模块的代码时,看到grouping_id的sql语句。一时忘记了这个函数的用法,遂赶紧写下这篇以防日后在用到时能快速想起...

  • 使用scalikejdbc操作数据库(三)实例代码

    前言 前两章我们已经了解了scalikejdbc操作数据库的基础和项目中实际需要的一些注意点,本章我们就直接搞上完整的实例代码,实例是以操作my...

  • 使用scalikejdbc操作数据库(二)使用连接池增删改查

    前言 在(一)我们已经能通过配置文件来创建了数据库的连接池,本章我们将来接着通过连接池来进行数据库的增删改查。 只操作一个数据库的curd 对于...

  • 使用scalikejdbc操作数据库(一)加载配置参数并创建连接池

    JDBC简介 JDBC是由SUN公司开发的一套开放标准的跨编程语言、跨数据库类型编程API。各数据库厂商根据这套规范开发自己数据库的驱动,通过驱...

  • 程序中hbase过滤查询

    hbase是我们大数据经常使用的一个数据库,我们经常需要根据某些条件去hbase获取需要的数据,本文主要聊一下我在项目中用到的过滤查询(基于sc...

  • Resize,w 360,h 240
    sparkStreaming优化(一)

    我们在执行sparkStreaming程序时,可能有shuffle的情况,shuffle除了常见的会出现数据不均衡的情况,还有可能会出现shuf...

  • spark直接读取Hfile

    如果spark在读取hbase的时候感觉速度达不到需求,可以直接读取hfile进行操作,看代码 为了保证读取的hfile在处理期间不会变化,需要...

  • sparkStreaming写入kafka优化(一)

    sparkstreaming写入kafka优化 项目中我们实时程序写入kafka可能是这样写 这样的方式是是每一个分区都拿一个KafkaProd...