240 发简信
IP属地:北京
  • Hadoop, MapReduce,Hive, HBase, Storm, Spark, Flink, Kylin等大数据框架的角色和关系

    各种大数据框架近几年发展得如火如荼,比如Hadoop, MapReduce,Hive, Hbase, Storm, Spark, Flink, Kylin 等,各个框架的角色...

  • Flink编程基础/基本框架

    Flink程序是对数据流,进行各种分布式处理/转换。通过sources创建输入的数据流(可以读取文件,从kafka的topic读取,或者内存的collecitons);结果通...

  • Flink的window机制

    Window在流式计算中很重要,因为”流”是一个无终点的持续输入,所以通过window机制来分块,进行聚合等各种处理 Keyed vs Non-Keyed Windows N...

  • Flink的可靠性保证 – CheckPoint机制

    Flink支持Exactly-Once级别的准确行,这是一个很高的要求,一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchrono...

  • Flink的可靠性保证 - 状态存储

    一 为什么需要State存储 与批计算相比,State是流计算特有的,批计算的failover机制,是失败后重新计算;流计算在大多数场景下是增量计算,数据逐条处理,每次计算是...

  • Flink流式计算里的时间和watermark机制

    一 流计算对“批计算”的优势: “流计算”是相对于“批计算”来的,MapReduce,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数...