Spark优化 - 文集

Spark优化

15篇文章 · 14927字 · 4人关注

Spark withColumn 陷阱
withColumn / withColumnRenamed 是 spark 中常用的 API，可以用于添加新字段 / 字段重命名 / 修改字...

0.1 10111 0 3
spark 小文件合并优化实践
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。背景此文是关于公司在 Delta Lake 上线之前对Spar...

0.5 10007 0 4

使用 Prometheus 和 Grafana 监控 Spark 应用
背景每个开发者都想了解自己任务运行时的状态，便于调优及排错，Spark 提供的 webui 已经提供了很多信息，用户可以从上面了解到任务的 s...

0.1 11201 1 4
yarn on yarn cgroup 资源隔离(cpu篇)
环境配置背景 yarn container 默认不支持对cpu进行资源隔离，一些计算密集型任务甚至可能占满NM节点的cpu资源，从而影响到其他...

0.5 11740 0 9
提高spark任务稳定性1 - Blacklist 机制
场景一个 spark 应用的产生过程：获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。往往应用会正常运行一段时间，突...

0.2 10238 0 7
在spark dataFrame 中使用 pandas dataframe
背景 pandas dataFrame 无法支持大量数据的计算，可以尝试 spark df 来解决这个问题。一. xgboost 预测的例子 ...

0.1 12877 0 5
spark range join 优化
背景一张ip表，一张ip地理信息表，地理信息表每条数据包含了ip地址的起点和终点以及一些地理信息, 需要用 ip 去关联 gep_ip 中匹...

6789 0 4

pypy on PySpark
什么是pypy 简单的说，pypy 基于jit静态编译，相比cpython 动态解释执行，因此执行速度上会更高效，同时减少了内存使用。 http...

4900 0 3
Spark排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是ma...

0.6 13058 2 32