背景 本文基于spark 3.2driver内存 2G 问题描述 在基于复杂的sql运行中,或者说是存在多个join操作的sql中,如果说driver内存不是很大的情况下,我...
背景 本文基于spark 3.2driver内存 2G 问题描述 在基于复杂的sql运行中,或者说是存在多个join操作的sql中,如果说driver内存不是很大的情况下,我...
背景 最近在写hiveUDF的时候,遇到了一些反序列的问题,具体的报错如下: 分析 我们的代码类似如下: 其中spark的配置是使用kryo序列化,spark.seriali...
背景 本文基于spark 3.1.2在之前的文章spark CTAS nuion all (union all的个数很多)导致超过spark.driver.maxResult...
背景 该sql运行在spark版本 3.1.2下的thrift server下 现象 在运行包含多个union 的spark sql的时候报错(该sql包含了50多个uino...
背景 对于spark的不同的join操作来说,有些谓词是能下推,是有谓词是不能下推的,今天我们实地操作一番,从现象和源码级别分析一下,这到底是怎么回事。 版本&环境 spar...
背景 最近在弄spark on k8s的时候,要集成同事的一些功能,其实这并没有什么,但是里面涉及到了hive的类问题(具体指这个org.apache.hadoop.hive...
Zen项目 Zen项目在一年前开始启动,目标就是让spark对python用户更加友好 类型提示 重要的一步就是加了一些类型提示,例如他能够在IDE或者notebook中自动...
我们知道目前在spark on k8s的官网中[https://spark.apache.org/docs/3.1.2/running-on-kubernetes.html#...
背景 为什么选择spark on k8s Apache Spark 作为一站式平台统一了批处理,实时处理,流分析,机器学习,以及交互式查询.虽然说spark 提供了多样的使用...
本文翻译自Mastering Query Plans in Spark 3.0[https://towardsdatascience.com/mastering-query-...
背景 由于前段时间在学习mysql相关的知识,其中涉及到了wal redo log以及磁盘的问题,在此记录一下。 Page Cache page Cache 是现代操作系统为...
pod的phase从Failed转换为了Succeeded一开始遇到这个问题的时候很是蒙,查了一系列的源码,也没有找到原因,线下也没有复现出来,后面查看kubenrete的G...