鸿乃江边鸟 - 简书

发简信

鸿乃江边鸟

92
关注
69
粉丝
66
文章
79466

字数
228

收获喜欢
63

总资产

IP属地：上海

鸿乃江边鸟

AQE中的CoalesceShufflePartitions和OptimizeLocalShuffleReader
背景本文基于spark 3.1.2在之前的文章spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResult...

4592 0 1
鸿乃江边鸟

spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResultSize配置（2G）
背景该sql运行在spark版本 3.1.2下的thrift server下现象在运行包含多个union 的spark sql的时候报错（该sql包含了50多个uino...

4114 0 5
鸿乃江边鸟

spark outer join push down filter rule（spark 外连接中的下推规则
背景对于spark的不同的join操作来说，有些谓词是能下推，是有谓词是不能下推的，今天我们实地操作一番，从现象和源码级别分析一下，这到底是怎么回事。版本&环境 spar...

4312 0 6
鸿乃江边鸟

spark hive类总是优先记载应用里面的jar包,跟spark.{driver/executor}.userClassPathFirst 无关
背景最近在弄spark on k8s的时候，要集成同事的一些功能，其实这并没有什么，但是里面涉及到了hive的类问题（具体指这个org.apache.hadoop.hive...

3811 0 1
鸿乃江边鸟

2021年北美数据+AI峰会重点
Zen项目 Zen项目在一年前开始启动，目标就是让spark对python用户更加友好类型提示重要的一步就是加了一些类型提示，例如他能够在IDE或者notebook中自动...

4140 0 1
鸿乃江边鸟

spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理
我们知道目前在spark on k8s的官网中[https://spark.apache.org/docs/3.1.2/running-on-kubernetes.html#...

4225 0 4
鸿乃江边鸟

spark on k8s:apache YuniKorn（Incubating）的助力
背景为什么选择spark on k8s Apache Spark 作为一站式平台统一了批处理,实时处理,流分析，机器学习，以及交互式查询.虽然说spark 提供了多样的使用...

5060 0 2
鸿乃江边鸟

掌握spark 3.0中的查询计划
本文翻译自Mastering Query Plans in Spark 3.0[https://towardsdatascience.com/mastering-query-...

4099 0 3
鸿乃江边鸟

关于page Cache和memory mappped Files 和zero copy
背景由于前段时间在学习mysql相关的知识，其中涉及到了wal redo log以及磁盘的问题，在此记录一下。 Page Cache page Cache 是现代操作系统为...

2875 0 2