王知无 - 简书

发简信

王知无

6
关注
211
粉丝
70
文章
166585

字数
190

收获喜欢
58

总资产

IP属地：浙江

王知无

所以说读者们才是最优秀的 | 某读者喜提offer后的分享
这是小编的一个读者喜提offer后在群里做的分享，文中隐藏了读者的个人隐私信息，小编这里把他的面经分享出来供大家学习。群友们看到后都纷纷表示【我酸了，现在我就是个柠檬精系列】...

220 0 1
王知无

所以说读者们才是最优秀的 | 某读者喜提offer后的分享
这是小编的一个读者喜提offer后在群里做的分享，文中隐藏了读者的个人隐私信息，小编这里把他的面经分享出来供大家学习。群友们看到后都纷纷表示【我酸了，现在我就是个柠檬精系列】...

208 0 1

王知无

2021年，开发者的落日
小说《三体》第一部结尾，叶文洁透过红岸基地天空看到了最后一次日落。她亲手发出的讯息让人类太阳永远沉沦。多年以后，一颗小小的水滴瞬间摧毁庞大的人类星际舰队，人类的骄傲与自尊灰飞...

268 0 0
王知无

【大数据哔哔集20210117】Kafka 的高可靠性是怎么实现的
数据可靠性 Kafka 作为一个商业级消息中间件，消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及 Leader ...

314 0 0
王知无

【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌
一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader，还没来得及被任何Follower复制就宕机了，而...

205 0 1
王知无

【大数据哔哔集20210122】面试官问我HDFS丢不丢数据？我啪就把这个文章甩到他脸上
数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中，存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上，需要NameNo...

295 0 0
王知无

【大数据哔哔集20210122】面试官问我HDFS丢不丢数据？我啪就把这个文章甩到他脸上
数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中，存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上，需要NameNo...

281 0 1

王知无

学不会去当产品吧？Flink实战任务调优
背景在大数据领域我们都知道，开发是最简单，任务的合理调优、问题排查才是最重要的。我们在之前的文章《Flink面试通关手册》[https://mp.weixin.qq.com...

483 0 0
王知无

Presto在大数据领域的实践和探索
小编在去年的时候，写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库》[https://mp.weixin.qq.com/s?__biz=M...

537 0 0
王知无

哈哈，答案我写了，可以照着看看

Flink 面试通关手册
概述 2019 年是大数据实时计算领域最不平凡的一年，2019 年 1 月阿里巴巴 Blink （内部的 Flink 分支版本）开源，大数据领域一夜间从 Spark 独步天下...

王知无
3256 2 11
王知无

突破性能瓶颈！ElasticSearch百亿级数据检索优化案例
一、前言本文中的数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的。实现参考，少走些弯路，在此篇幅中偏重于ES的...

1361 0 4
王知无

great

Greenplum 数据库之拉链表的实现
历史拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的；顾名思义，所谓历史拉链表，就是记录一个事务从开始一直到当前状态的所有变化的信息，拉链表可以避免...

小飞牛_666
3508 3 10

王知无

写得太好了。支持作者。

Ogg 监控 MySQL - Binlog 日志并对接 Kafka 实战（一）
对于 Flink 数据流的处理，一般都是去直接监控 xxx.log 日志的数据，至于如何实现关系型数据库数据的同步的话网上基本没啥多少可用性的文章，基于项目的需求，经过一...

小飞牛_666
5566 7 10
王知无

触类旁通Elasticsearch之吊打同行系列：分析篇
目录一、什么是分析二、分析文三、分析API 四、分析器、分词器、分词过滤器内置分析器分词器分词过滤器五、N元语法、侧边N元语法、滑动窗口六、IK中文分词插件 ...

1311 1 8
王知无

我特别喜欢你的文章，三个赞👍

基于ClickHouse的用户行为（路径）分析实践
前言 ClickHouse为用户提供了丰富的多参聚合函数（parametric aggregate function）和基于数组+Lambda表达式的高阶函数（higher-...

LittleMagic
13412 25 59 1
王知无

flink与kafka结合
1、概述 flink提供了一个特有的kafka connector去读写kafka topic的数据。flink消费kafka数据，并不是完全通过跟踪kafka消费组的off...

loukey_j
18457 0 9
王知无

Spark SQL CBO 基于代价的优化
Spark CBO 背景本文将介绍 CBO，它充分考虑了数据本身的特点（如大小、分布）以及操作算子的特点（中间结果集的分布及大小）及代价，从而更好的选择执行代价最小的物理执...

1048 0 1

王知无

解决Spark数据倾斜(三) 使用随机前缀分散倾斜Key
原理为数据量特别大的Key增加随机前/后缀，使得原来Key相同的数据变为Key不相同的数据，从而使倾斜的数据集分散到不同的Task中，彻底解决数据倾斜问题。Join另一则的...

2036 0 8