ba5cd5d7968f - 简书

发简信

54
关注
3
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：湖北

ba5cd5d7968f

Spark学习笔记(6)性能调优
1.调节并行度并行度是指各个stage中task的数量。1）官方推荐，task数量设置成spark application总cpu core数量的2~3倍，比如150个cp...

灯火gg
392 0 3
ba5cd5d7968f

spark 数据倾斜总结
一、数据倾斜概念 1.1、是指shuffle过程中，必须将各个节点上相同key拉取到某个节点上的一个task来进行处理，此时如果某个key对应的数据特别大的话，就会发生...

loukey_j
4521 1 22

ba5cd5d7968f

absfree
写了 37746 字，被 755 人关注，获得了 1254 个喜欢

把玩代码十三载
ba5cd5d7968f

Spark学习笔记(5)Shuffle源码分析
概述 RDD作为Spark对各种数据计算模型的同一抽象，被用于迭代计算过程以及任务结果的缓存读写。在MR模型中，shuffle是map到reduce的中间桥梁。经过map标记...

灯火gg
391 0 8
ba5cd5d7968f

聊聊flink的Table Formats
序本文主要研究一下flink的Table Formats 实例 CSV Format flink内置支持csv format，无需添加额外依赖 JSON Format 可以...

go4it
3383 0 6
ba5cd5d7968f

go4it
写了 697986 字，被 737 人关注，获得了 1460 个喜欢
ba5cd5d7968f

飞鸿无痕
写了 205114 字，被 628 人关注，获得了 595 个喜欢

专注理财规划和运维技术；

ba5cd5d7968f

Hbase技术详细学习笔记
最近在逐步跟进Hbase的相关工作，由于之前对Hbase并不怎么了解，因此系统地学习了下Hbase，为了加深对Hbase的理解，对相关知识点做了笔记，并在组内进行了Hbase...

飞鸿无痕
50182 19 271 1
ba5cd5d7968f

小C菜鸟
写了 32339 字，被 35 人关注，获得了 16 个喜欢
ba5cd5d7968f

a3aac2d1b674
写了 0 字，被 1355 人关注，获得了 1017 个喜欢
ba5cd5d7968f

海纳百川_spark
写了 38998 字，被 270 人关注，获得了 302 个喜欢
ba5cd5d7968f

BIGUFO
写了 37908 字，被 202 人关注，获得了 203 个喜欢

Github地址<br><a href="https://github.com/teeyog" rel="nofollow" target="_blank">https://github.com/teeyog</a>

ba5cd5d7968f

柚子胖鸡_
写了 14470 字，被 56 人关注，获得了 101 个喜欢

我是一个没有感情的菠萝头
ba5cd5d7968f

996b8883d220
写了 0 字，被 246 人关注，获得了 72 个喜欢
ba5cd5d7968f

MLSQL
祝威廉编，67 篇文章，146 人关注

MLSQL unifies Big Data and Machine Learning
ba5cd5d7968f

牛肉圆粉不加葱
写了 125404 字，被 1240 人关注，获得了 700 个喜欢

永不止步 Keep Moving
ba5cd5d7968f

苗栋栋
写了 150697 字，被 48 人关注，获得了 78 个喜欢

看清事实，依心而行<br><br> coding&思考<br><br>微信公众号：becomefm<br>

ba5cd5d7968f

你好，我有几个关于flink使用的问题想请教下，一是很多打点数据过来的时候，可能只是单维度的比如：用户在商品上的点击，但是需求方想得到的是某个用户在店铺维度上的点击均值，这个时候我是要做两次keyby么？

flink与Spark的对比分析
我们是否还需要另外一个新的数据处理引擎？当我第一次听到flink的时候这是我是非常怀疑的。在大数据领域，现在已经不缺少数据处理框架了，但是没有一个框架能够完全满足不同的处理需...

Albert陈凯
17827 1 12
ba5cd5d7968f

郭寻抚
写了 50268 字，被 166 人关注，获得了 176 个喜欢

暂无个人介绍