之前在一篇文章里说要写一篇英文原著的入门参考,这篇算是吧。 我的想法是,先把20本相对比较简单的英文原著按阅读难易程度排列出来,从易到难。选书这个步骤我觉得是非常重要的,比阅...
![240](https://cdn2.jianshu.io/assets/default_avatar/8-a356878e44b45ab268a3b0bbaaadeeb7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP属地:上海
之前在一篇文章里说要写一篇英文原著的入门参考,这篇算是吧。 我的想法是,先把20本相对比较简单的英文原著按阅读难易程度排列出来,从易到难。选书这个步骤我觉得是非常重要的,比阅...
通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例 1.电信通讯stage层 ->bdl层 ->analysi...
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本 背景: Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著...
前言 Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结...
这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。 前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以...
1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开...