
25篇文章 · 12602字 · 1人关注
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 ...
简介 spark-sql-perf 是一个 spark sql 性能测试框架,可以用来进行一些基准测试。 测试环境: spark 2.4.0 s...
背景 在生产环境中,为了提高任务提交的响应速度,我们研发了类似 Spark Jobserver 的服务,各种类型的 spark 任务复用已经启动...
简书不支持HTML标签 Spark Optane IMDT 测试
概述 项目地址: Intel-hadoop/HiBench Hibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速...
背景 开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造,如果直接在源码的层面对其修改,当下可能用的很省心,但后期与社区代码的合...
配置 所有运行节点安装 pyarrow ,需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中,python 正在成为数据分析师...
下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式...
将RDD[Map[String,String]] 转化为展平 DataFrame,类似于pyspark 中 dict 结构toDF的效果。 in...
文集作者