Gilegamesh - 简书

发简信

5
关注
3
粉丝
10
文章
3164

字数
1

收获喜欢
1

总资产

IP属地：北京

Gilegamesh

张家锋
写了 207106 字，被 252 人关注，获得了 257 个喜欢

Apache Doris PMC、关注OLAP数仓及数据中台建设<br>
Gilegamesh

如何解决spark多表非对等join导致cross join？
一般的join如果两边的join条件是一一对应是性能比较好的情况，但是当遇到join条件两边存在多行对应一行或者多行对应多行的情况。就会出现M行join N行结果就会产生笛...

727 0 0

Gilegamesh

阿里云云栖号
写了 0 字，被 643237 人关注，获得了 74506 个喜欢

阿里云官网内容平台！汇聚阿里云优质内容（入门、文档、案例、最佳实践、直播等）！如需转载或内容类合作，邮件yqgroup@service.aliyun.com 秒级回复！<br>
Gilegamesh

14.胶囊网络（Capsule Network）
接下来，我们来讲一下胶囊网络（Capsule）。Capsule是Hilton的paper，他发表在NIPS2017。 Capsule的定义 Capsule是什么呢？Capsu...

SpareNoEfforts
41638 0 38
Gilegamesh

Alex90
写了 242551 字，被 144 人关注，获得了 197 个喜欢
Gilegamesh

spark last first函数的坑
某天一个需求需要用上spark sql的内置function, first跟last。心想只要把数据按某个字段提前排序，再分组取出first跟last值就没问题。结果却是测...

1466 0 0
Gilegamesh

小算法-如何递归实现String的reverse
需求： Array(H, e, l, l, o) ==》Array[Char] = Array(o, l, l, e, H) 递归实现。看似很简单的算法问题，但是在没有任何...

548 0 0

Gilegamesh

ElasticSearch: java transportClient
连接： private staticSettingssettings= Settings .builder() .put("cluster.name",CLUSTER_NAM...

934 0 0
Gilegamesh

在foreachRDD里面自己实现文件的写入手动控制文件名跟文件大小可行么

解决Spark Streaming写入HDFS的小文件问题
今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.block.size的文件。如果...

LittleMagic
9391 12 17
Gilegamesh

能给个github出来吗

Flink SQL FileSystem Connector分区提交与自定义小文件合并策略
本文已授权「Flink中文社区」微信公众号发布并标注原创。 Prologue 之前笔者在介绍Flink 1.11 Hive Streaming新特性时提到过，Flink SQ...

LittleMagic
6348 22 48
Gilegamesh

LittleMagic
写了 499547 字，被 35615 人关注，获得了 4877 个喜欢

本博客所有内容均适用知识共享-署名-相同方式共享（CC-BY-SA）4.0协议。
Gilegamesh

spark结构化流--kafka
我们的场景是通过spark-streaming读取kafka数据，实时持久化到hdfs上。并按day和hour分区。就像这种格式： kafka：0.10.2.0 hdfs：2...

1407 0 1

Gilegamesh

迭代器模式
java集合类遍历有个常见的问题就是想在Iterator里面去判断删除某个符合条件的元素的时候，如果使用List.remove()的方法就会会报出ConcurrentModi...

326 0 0
Gilegamesh

FP-函数式编程
近些年在大数据分布式计算的急速发展下，催生出各种大型软件的工业需求。而这种大型软件要容易理解和维护，OOP繁琐的语法及指令式编程肯定是力不从心的。于是人们就把视野重新回归到了...

1416 0 0
Gilegamesh

spark 2.1 sort-based shuffle
spark的shuffle从最开始的basic HashShuffle的M*R个中间文件，到优化的consalidate方式的C*R个中间文件。但他们的缺点还是太明...

408 0 0
Gilegamesh

scala： map与flatmap的区别
1) 虽然看过不少FP的东西，但是有一天碰到一个操作，还是没有搞清楚用map与flatmap的区别何在。举一个浅显的栗子： map出来的结果很显而易见，为什么flatMap的...

6269 0 0
Gilegamesh

spark连接elasticsearch
从hbase读取数据，插入es。第一批大约400w数据，用时4mins。 importorg.elasticsearch.spark._ importorg.elastics...

1879 0 0

Gilegamesh

imarch1
写了 4738 字，被 23 人关注，获得了 16 个喜欢

热爱大数据
Gilegamesh

暂无个人介绍