240 发简信
IP属地:北京
  • 120
    数据团队规划布局感悟(一)

    前言 记得今年一月份在杭州和W君漫步钱塘江赏霾,畅谈了两个小时,除了聊了研发的两观,全局观和产品观, 也聊了数据部的组织架构。一个良好架构布局确实会让人受益良多。 架构布局 ...

  • 120
    Spark Streaming如何消费Kafka的大消息(30M-40MB)

    本文基于Spark2.1.0版本 虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka 发布-订阅模型中Producer-Broker-...

  • 120
    0x15 数据工程师,常用Shell命令

    摘要:Linux以其强大的命令行称霸江湖,Shell命令是数据极客的必修兵器。探索性数据分析,在需求和数据都不太明确的环境下,使用各种命令进行一次探索与挖掘。从基础的文件查看...

  • RDD、DataFrame和DataSet的区别

    spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》 ,在2.X中DataFram...