withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
背景 大数据平台早期是野蛮生长的,作业直接在终端提交运行,处于一种完全无管理的自由状态。在17年上线了内部的大数据平台后,用户开始逐渐在平台上进...
背景 Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物...
Delta Lake当前版本(0.5)只支持API操作的,但是实现 Insert SQL 语法也不难,可以参考 Delta Lake 平台化实践...
很久没写过部署文档了,不过 Apache Ranger KMS 的手动部署较为繁琐,网上的相关资料基本都是散装的,因此写了一篇进行总结。 背景 ...
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spar...
数据接入 背景 使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。 方案设计 数据源1:内部消息服...