一般的join如果两边的join条件是一一对应是性能比较好的情况,但是当遇到join条件两边存在多行对应一行或者多行对应多行的情况。就会出现M行join N行 结果就会产生笛...
接下来,我们来讲一下胶囊网络(Capsule)。Capsule是Hilton的paper,他发表在NIPS2017。 Capsule的定义 Capsule是什么呢?Capsu...
某天一个需求需要用上spark sql的内置function, first跟last。心想只要把数据按某个字段提前排序,再分组取出first跟last值就没问题。 结果却是测...
需求: Array(H, e, l, l, o) ==》Array[Char] = Array(o, l, l, e, H) 递归实现。 看似很简单的算法问题,但是在没有任何...
连接: private staticSettingssettings= Settings .builder() .put("cluster.name",CLUSTER_NAM...
在foreachRDD里面自己实现文件的写入 手动控制文件名跟文件大小可行么
解决Spark Streaming写入HDFS的小文件问题今天仍然处于感冒状态,打开电脑随便写一篇,然后滚回床上休息。 我们都知道,在HDFS中不宜存储大量的小文件。所谓小文件,就是大小远小于dfs.block.size的文件。如果...
能给个github出来吗
Flink SQL FileSystem Connector分区提交与自定义小文件合并策略本文已授权「Flink中文社区」微信公众号发布并标注原创。 Prologue 之前笔者在介绍Flink 1.11 Hive Streaming新特性时提到过,Flink SQ...
我们的场景是通过spark-streaming读取kafka数据,实时持久化到hdfs上。并按day和hour分区。就像这种格式: kafka:0.10.2.0 hdfs:2...
java集合类遍历有个常见的问题就是想在Iterator里面去判断删除某个符合条件的元素的时候,如果使用List.remove()的方法就会会报出ConcurrentModi...
近些年在大数据分布式计算的急速发展下,催生出各种大型软件的工业需求。而这种大型软件要容易理解和维护,OOP繁琐的语法及指令式编程肯定是力不从心的。于是人们就把视野重新回归到了...
spark的shuffle从最开始的basic HashShuffle的M*R个中间文件,到优化的consalidate方式的C*R个中间文件。但他们的缺点还是太明...
1) 虽然看过不少FP的东西,但是有一天碰到一个操作,还是没有搞清楚用map与flatmap的区别何在。举一个浅显的栗子: map出来的结果很显而易见,为什么flatMap的...
从hbase读取数据,插入es。第一批大约400w数据,用时4mins。 importorg.elasticsearch.spark._ importorg.elastics...