240 发简信
IP属地:台湾
  • Resize,w 360,h 240
    如何解决spark多表非对等join导致cross join?

    一般的join如果两边的join条件是一一对应是性能比较好的情况,但是当遇到join条件两边存在多行对应一行或者多行对应多行的情况。就会出现M行...

  • Resize,w 360,h 240
    spark last first函数的坑

    某天一个需求需要用上spark sql的内置function, first跟last。心想只要把数据按某个字段提前排序,再分组取出first跟l...

  • Resize,w 360,h 240
    小算法-如何递归实现String的reverse

    需求: Array(H, e, l, l, o) ==》Array[Char] = Array(o, l, l, e, H) 递归实现。 看似很...

  • ElasticSearch: java transportClient

    连接: private staticSettingssettings= Settings .builder() .put("cluster.na...

  • Resize,w 360,h 240
    spark结构化流--kafka

    我们的场景是通过spark-streaming读取kafka数据,实时持久化到hdfs上。并按day和hour分区。就像这种格式: kafka:...

  • Resize,w 360,h 240
    迭代器模式

    java集合类遍历有个常见的问题就是想在Iterator里面去判断删除某个符合条件的元素的时候,如果使用List.remove()的方法就会会报...

  • FP-函数式编程

    近些年在大数据分布式计算的急速发展下,催生出各种大型软件的工业需求。而这种大型软件要容易理解和维护,OOP繁琐的语法及指令式编程肯定是力不从心的...

  • Resize,w 360,h 240
    spark 2.1 sort-based shuffle

    spark的shuffle从最开始的basic HashShuffle的M*R个中间文件,到优化的consalidate方式的C*R个...

  • Resize,w 360,h 240
    scala: map与flatmap的区别

    1) 虽然看过不少FP的东西,但是有一天碰到一个操作,还是没有搞清楚用map与flatmap的区别何在。举一个浅显的栗子: map出来的结果很显...