240 发简信
IP属地:上海
  • Resize,w 360,h 240
    斯坦福算法课(连载一)

    斯坦福算法课的编程题还是挺有挑战的,比如Programming Assignment 4,求SCC,问题的数据集接近80M,除了算法,数据结构和...

  • SparkStreaming - SparkStreaming与Kafka0.10整合

    官网文档阅读笔记 https://spark.apache.org/docs/latest/streaming-kafka-0-10-integ...

  • Resize,w 360,h 240
    SparkStreaming - SparkStreaming与Kafka0.8整合

    早期SparkStreaming和Kafka集成,使用Write Ahead Logs (WALs)日志来实现,如下图。因为要同步保存所有收到的...

  • Zookeeper 简述集群leader选举机制

    Leader选举是保证分布式数据一致性的关键。 当Zookeeper集群中的一台服务器出现服务器初始化启动,或者服务器运行期间无法和Leader...

  • Resize,w 360,h 240
    HiveQL 常用操作练手

    1. 有以下数据,利用动态分区导入到分区表中(按照年、月进行多级分区) 10001 100 2019-03-0110002 200 20...

  • HiveQL 聚合函数是否可以写在order by后面

    聚合函数是否可以写在order by后面,为什么? 逻辑上,这样做有可能导致order by的排序结果被打乱。例如,聚合函数group by聚合...

  • Resize,w 360,h 240
    HiveQL 统计影音视频网站的常规指标

    HiveQL 的热手练习,代码都跑通了,附运行结果。抛砖引玉。 1 需求描述 统计某影音视频网站的常规指标,各种TopN指标: --统计视频观看...

  • Scala的Option,Some,None类型

    Some,None Some和None类型是Java中所没有的,但在 Scala 程序中却经常使用。 Some和None的实例(Instance...

  • SparkStreaming - Kryo框架的关键功能

    1.概述 Kryo是一个Java序列化框架。本文将尝试着探索Kryo框架的关键功能,并用示例展示出来。 2. Maven依赖 可以在Maven ...