经过2020战战兢兢的一年,我自己找工作这个事现在也基本尘埃落定,今天就想总结总结过去几个月的感想,也想分享给还在挣扎的同学们一些经验,少走点弯路,希望多些华人在这里站住脚。...
经过2020战战兢兢的一年,我自己找工作这个事现在也基本尘埃落定,今天就想总结总结过去几个月的感想,也想分享给还在挣扎的同学们一些经验,少走点弯路,希望多些华人在这里站住脚。...
Domain 1. Leetcode 811 We are given a list cpdomains of count-paired domains. We would ...
https://soulmachine.gitbooks.io/system-design/content/cn/bigdata/heavy-hitters.html[htt...
split和operator那一块讲的不清楚,后面可以看。 Presto实现原理和美团的使用实践 这个看最后的几个比较。https://www.cnblogs.com/tgz...
websocket 和 http的比较http://www.ruanyifeng.com/blog/2017/05/websocket.htmlhttps://zhuanla...
https://medium.com/@morefree7/design-a-distributed-web-crawler-f67a8ebb8336 仅仅是要减小nodes...
Flink WaterMark 详解 watermark是全局的值,但是每个operator维护一个当前的watermark,多流的时候取最小。 watermark》= wi...
db直接存经纬度,加index,然后扫描一个方块。 整个地图划分成格子,然后不同地方存个格子编号,然后查询,也可以快速找到相邻的,问题就是不同格子密度可能不一样、 3。qua...
大体思路,保存下。
这个文章讲的挺细致了。 不过还是有几个可以思考的细节。 需要一个global的id 生成器,给每个url文档生成一个doc id,放进倒排里。 索引库在分片的时候不完全按照h...
小文件存储对hbase不太合适。会产生太多小块。hbase是按照rowkey来分片的。所以太多小文件了 https://zhuanlan.zhihu.com/p/136705...
基础概念考察 一、 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源...
https://zhuanlan.zhihu.com/p/40327960java 7是分seg,每个seg下面有个entry array。每个entry下面是个链表,真正存...
https://www.playpi.org/2019120101.html https://www.jianshu.com/p/d9fb7afa634d 如果遇到 Inva...
java 依赖包冲突,使用maven的Shade方式解决 [TOC] 问题描述 程序中同时使用了hadoop工具包与ElasticSearch工具导致jar包。程序报错: j...
针对maven的依赖冲突通常有两种方式: 当冲突两者其中一方兼容另外一方时,通过exclusions和exclusion标签解决。 当冲突两者互不兼容时,使用maven-sh...
kafka的架构详解和各种工作流 broker就是真的存数据的。其他meta信息都是放在ZK里面的。 producer是不注册在ZK的,ZK里保存了各种信息,Topic的pa...
https://blog.csdn.net/login_sonata/article/details/75268075 核心是B+的只有叶子节点存数据页信息,而B在非叶节点,...
这个文章 脏读:被人没提交的事务。幻读: 一个事务里面多次读的结果数量不一样,有insert。不可重复度:一个事务对某个具体的行读的结果不一样。注意和幻读的区别,一个是单一,...