1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开...
IP属地:北京
1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开...
一、死亡,一个大多数人讳莫如深的词语,我却看到一种让生命绽放的力量。 有天群友分享了个笑话:一人外出旅游。住进酒店发现房间里可以上网,就给妻子发了封电邮。却输错邮件地址,邮件...
背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证...