Spark DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Post...
IP属地:浙江
Spark DataSource API 的提出使得各个数据源按规范实现适配,那么就可以高效的利用Spark 的计算能力。典型如Parquet,CarbonData,Post...
StreamingPro目前已经涵盖流式/批处理,以及交互查询三个领域,实现配置和SQL化 前言 StreamingPro 原来仅仅是用来作为Spark Streaming的...
Spark Streaming 非常适合ETL。但是其开发模块化程度不高,所以这里提供了一套方案,该方案提供了新的API用于开发Spark Streaming程序,同时也实现...
之前有听过Zero-Copy 技术,而Kafka是典型的使用者。网上找了找,竟然没有找到合适的介绍文章。正好这段时间正在阅读Kafka的相关代码,于是有了这篇内容。这篇文章会...
Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了...
这篇文章由一次平安夜的微信分享整理而来。在Stuq 做的分享,原文内容。 业务场景 这次分享会比较实战些。具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根...