240 发简信
IP属地:上海
  • Resize,w 360,h 240
    Spark withColumn 陷阱

    withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...

  • Resize,w 360,h 240
    大数据平台资源治理经验总结

    背景 大数据平台早期是野蛮生长的,作业直接在终端提交运行,处于一种完全无管理的自由状态。在17年上线了内部的大数据平台后,用户开始逐渐在平台上进...

  • 不通过 Spark 获取 Delta Lake Snapshot

    背景 Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物...

  • Delta Lake 分区表覆盖写入操作

    Delta Lake当前版本(0.5)只支持API操作的,但是实现 Insert SQL 语法也不难,可以参考 Delta Lake 平台化实践...

  • Resize,w 360,h 240
    Apache Ranger 部署文档

    很久没写过部署文档了,不过 Apache Ranger KMS 的手动部署较为繁琐,网上的相关资料基本都是散装的,因此写了一篇进行总结。 背景 ...

  • Delta Presto Integration & Manifests 机制

    Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...

  • Delta Lake 平台化实践(离线篇)

    Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...

  • Resize,w 360,h 240
    spark 小文件合并优化实践

    对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spar...

  • Resize,w 360,h 240
    Apache Druid 平台化 - 数据接入篇

    数据接入 背景 使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。 方案设计 数据源1:内部消息服...