前言 记得今年一月份在杭州和W君漫步钱塘江赏霾,畅谈了两个小时,除了聊了研发的两观,全局观和产品观, 也聊了数据部的组织架构。一个良好架构布局确实会让人受益良多。 架构布局 ...

IP属地:北京
前言 记得今年一月份在杭州和W君漫步钱塘江赏霾,畅谈了两个小时,除了聊了研发的两观,全局观和产品观, 也聊了数据部的组织架构。一个良好架构布局确实会让人受益良多。 架构布局 ...
本文基于Spark2.1.0版本 虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka 发布-订阅模型中Producer-Broker-...
摘要:Linux以其强大的命令行称霸江湖,Shell命令是数据极客的必修兵器。探索性数据分析,在需求和数据都不太明确的环境下,使用各种命令进行一次探索与挖掘。从基础的文件查看...
spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFram...
由于最近学习了Play Framework这个web开发框架,接口的设计和api非常炫酷。由于是scala写的,所以这个框架对于和大数据框架结合来说个人觉得最非常适合。 每次...
程序员最深恶痛绝并力求避免的异常是NullPointerException,很不幸,我们往往又会忽略这个错误。不知是谁设计了Null这样的对象。我在文章《并非Null Obj...
在数据分析中,处理Key,Value的Pair数据是极为常见的场景。譬如说,对Pair数据按照key分组、聚合,又或者更抽象的,则是根据key对value进行fold运算。 ...