Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, D...
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功...
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都...
数据本地性是 Spark 等计算引擎从计算性能方面去考量的一个重要指标,对于某个数据分片的运算,Spark 在调度侧会做数据本地性的预测,然后尽...
什么是 ConfigMap 顾名思义,用来存配置的Map,可以存单个配置或者配置文件,在 POD 中我们可以通过环境变量来访问单个配置和配置文件...
漫谈Spark内存管理(一)有提到问题:“ Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主要消耗在哪些地方?”。本文就...
原文 前段时间工作中踩到SPARK-21444的坑,这里做个记录。 1 场景描述 我们的一个spark app在正常运行几个月后经常出现driv...
场景 spark streaming接受到数据后,在spark中进行存储,之后将kafka确认信息存储到zookeeper上(kafka的偏移量...
目录 流量控制简介 Spark Streaming流控基本设置 Spark Streaming反压机制的具体实现动态流量控制器基于PID机制的速...
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中(没错,Kafka本质上是流处理系统,不是单纯的“消息队...
专题公告
Spark深入学习专题旨在通过高质量的文章对Spark相关技术进行研究学习