《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优...

收录了8篇文章 · 2人关注
《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优...
《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优...
《Spark性能优化:开发调优篇》《Spark性能优化:资源调优篇》《Spark性能优化:数据倾斜调优》《Spark性能优化:shuffle调优...
数据倾斜 数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理...
前言一年一度的双11又要到了,阿里的双11销量大屏可以说是一道特殊的风景线。实时大屏(real-time dashboard)正在被越来越多的企...
Join背景 当前SparkSQL支持三种join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort ...
本次分享者:辰石,来自阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。 Spark Shuffle介绍...
本文整理自来自阿里巴巴的沐远的分享,由大数据技术与架构进行整理和分享。 场景需求和挑战 面临的场景 金融风控 用户画像库 爬虫抓取信息 反欺诈系...