Spark的Driver本身就是Scheduler,完整的类名叫做CoarseGrainedSchedulerBackend,为什么叫Coars...
Spark的Driver本身就是Scheduler,完整的类名叫做CoarseGrainedSchedulerBackend,为什么叫Coars...
上周调优一个job 的时候发现一个join 意外的耗时间,如图上一个join的shuffle操作就耗时1.2h. Input 才91GB, s...
一、Spark包括什么 spark的核心是Spark Core,其中上面的Spark Sql对接的是Hive等结构化查询,Spark Strea...
withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
环境idea-2020.1 + gradle-4.9 + scala-2.11 代码如下: polygon.csv 数据集 输出结果如下:
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
本文基于spark streaming通过direct mode访问kafka的场景,从源码出发分析spark streaming如何实现数据读...
相关文章 1 . Spark on k8s: 调试客户端spark-submit进程 Spark on k8s: 调试Driver Pod的方法...
问题描述 基于Spark 3.0-SNAPSHOT(unreleased),做Spark-Terasort相关测试,任务正常的话分如下图所示两个...
专题公告
如何高效利用spark解决问题的文章