Avatar notebook default
15篇文章 · 14927字 · 4人关注
  • Resize,w 360,h 240
    Spark withColumn 陷阱

    withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...

  • Resize,w 360,h 240
    spark 小文件合并优化实践

    对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spar...

  • Resize,w 360,h 240
    使用 Prometheus 和 Grafana 监控 Spark 应用

    背景 每个开发者都想了解自己任务运行时的状态,便于调优及排错,Spark 提供的 webui 已经提供了很多信息,用户可以从上面了解到任务的 s...

  • Resize,w 360,h 240
    yarn on yarn cgroup 资源隔离(cpu篇)

    环境配置 背景 yarn container 默认不支持对cpu进行资源隔离,一些计算密集型任务甚至可能占满NM节点的cpu资源,从而影响到其他...

  • 提高spark任务稳定性1 - Blacklist 机制

    场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。往往应用会正常运行一段时间,突...

  • 在spark dataFrame 中使用 pandas dataframe

    背景 pandas dataFrame 无法支持大量数据的计算,可以尝试 spark df 来解决这个问题。 一. xgboost 预测的例子 ...

  • spark range join 优化

    背景 一张ip表,一张ip地理信息表,地理信息表每条数据包含了ip地址的起点和终点以及一些地理信息, 需要用 ip 去关联 gep_ip 中匹...

  • Resize,w 360,h 240
    pypy on PySpark

    什么是pypy 简单的说,pypy 基于jit静态编译,相比cpython 动态解释执行,因此执行速度上会更高效,同时减少了内存使用。 http...

  • Resize,w 360,h 240
    Spark排错与优化

    一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是ma...

    0.6 9254 2 32

文集作者