鸿乃江边鸟 - 简书

IP属地：上海

spark在生产中是否要禁止掉BHJ(BroadcastHashJoin)
背景本文基于spark 3.2driver内存 2G 问题描述在基于复杂的sql运行中，或者说是存在多个join操作的sql中，如果说dri...

0.9 1141 1 5
spark hiveUDF transient的重要性
背景最近在写hiveUDF的时候，遇到了一些反序列的问题，具体的报错如下：分析我们的代码类似如下：其中spark的配置是使用kryo序列...

0.3 513 0 1

AQE中的CoalesceShufflePartitions和OptimizeLocalShuffleReader
背景本文基于spark 3.1.2在之前的文章spark CTAS nuion all （union all的个数很多）导致超过spark.d...

0.1 851 0 1
spark CTAS nuion all （union all的个数很多）导致超过spark.driver.maxResultSize配置（2G）
背景该sql运行在spark版本 3.1.2下的thrift server下现象在运行包含多个union 的spark sql的时候报错（...

1.6 608 0 5
spark outer join push down filter rule（spark 外连接中的下推规则
背景对于spark的不同的join操作来说，有些谓词是能下推，是有谓词是不能下推的，今天我们实地操作一番，从现象和源码级别分析一下，这到底是怎...

1.1 751 0 6
spark hive类总是优先记载应用里面的jar包,跟spark.{driver/executor}.userClassPathFirst 无关
背景最近在弄spark on k8s的时候，要集成同事的一些功能，其实这并没有什么，但是里面涉及到了hive的类问题（具体指这个org.apa...

0.1 503 0 1
2021年北美数据+AI峰会重点
Zen项目 Zen项目在一年前开始启动，目标就是让spark对python用户更加友好类型提示重要的一步就是加了一些类型提示，例如他能够在I...

0.1 728 0 1

spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理
我们知道目前在spark on k8s的官网中[https://spark.apache.org/docs/3.1.2/running-on-k...

0.6 792 0 4
spark on k8s:apache YuniKorn（Incubating）的助力
背景为什么选择spark on k8s Apache Spark 作为一站式平台统一了批处理,实时处理,流分析，机器学习，以及交互式查询.虽然...

0.4 1137 0 2