背景 本文基于spark 3.2driver内存 2G 问题描述 在基于复杂的sql运行中,或者说是存在多个join操作的sql中,如果说dri...
背景 最近在写hiveUDF的时候,遇到了一些反序列的问题,具体的报错如下: 分析 我们的代码类似如下: 其中spark的配置是使用kryo序列...
背景 本文基于spark 3.1.2在之前的文章spark CTAS nuion all (union all的个数很多)导致超过spark.d...
背景 该sql运行在spark版本 3.1.2下的thrift server下 现象 在运行包含多个union 的spark sql的时候报错(...
背景 对于spark的不同的join操作来说,有些谓词是能下推,是有谓词是不能下推的,今天我们实地操作一番,从现象和源码级别分析一下,这到底是怎...
背景 最近在弄spark on k8s的时候,要集成同事的一些功能,其实这并没有什么,但是里面涉及到了hive的类问题(具体指这个org.apa...
Zen项目 Zen项目在一年前开始启动,目标就是让spark对python用户更加友好 类型提示 重要的一步就是加了一些类型提示,例如他能够在I...
我们知道目前在spark on k8s的官网中[https://spark.apache.org/docs/3.1.2/running-on-k...
背景 为什么选择spark on k8s Apache Spark 作为一站式平台统一了批处理,实时处理,流分析,机器学习,以及交互式查询.虽然...