前言 因为cdh版本更新频率较快,各个小版本之间变化可能不是很大,但是Cloudera公司的每一次更新带来的都是bug的修复,技术的革新。相较于我们公司生产上还是cdh5.9...
IP属地:浙江
前言 因为cdh版本更新频率较快,各个小版本之间变化可能不是很大,但是Cloudera公司的每一次更新带来的都是bug的修复,技术的革新。相较于我们公司生产上还是cdh5.9...
1、前言 由于presto基于内存计算,相比较与hive(on spark)有更好的交互查询体验,组织决定使用presto作为主要的交互查询工具,hive作为跑批使用。有个问...
当前Spark Streaming-Streaming Join只支持: InnerJoin; LeftJoin; RightJoin; 整体思路 将Join的条件分为:pr...
多数据源Join思路多数据源Join大致有以下三种思路: 数据源端Join,如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。 计算引擎上Join,...
概述 因为自己在阅读源码的过程中曾经遇到过很多问题,现在稍微有一点点的经验希望分享给很多从零开始的人。Apache的项目代码量很大,很难做到彻底通读,我也是一步一步的先从整体...
前言 今天朋友圈有篇【阿里技术】发的文章,说Blink的性能如何强悍,功能现在也已经比较完善。譬如: Blink 在 TPC-DS 上和 Spark 相比有着非常明显的性能优...
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。 关于状态管理 在流式计算中,数据是持续不...