这一章节继续深入讲解数据处理模式,介绍鲁棒的去数据乱序数据的核心概念,这些概念的应用是流式系统超越批系统的关键所在。 路线图 第一章中讲述了两个重要的概念 事件时间VS处理时...
这一章节继续深入讲解数据处理模式,介绍鲁棒的去数据乱序数据的核心概念,这些概念的应用是流式系统超越批系统的关键所在。 路线图 第一章中讲述了两个重要的概念 事件时间VS处理时...
1. 为什么要流式计算 业务需求:业务需要更及时计算结果,而流数据处理可以获得更低的延时 数据特点:海量的无边界数据在现代企业中越来越普遍,而流数据处理系统就是为此而生的 硬...
使用Runable接口和Thread类实现线程的异同 相同之处 在实现Runable接口的类和继承Thread的类中均需要重写run()方法 在启动线程时均通过调用start...
批处理的 WordCount 程序分析: https://t.zsxq.com/YJ2Zrfi 博客 1、Flink 从0到1学习 —— Apache Flink 介绍 2、...
前言 最近正在将一些原本用Spark Streaming实现的流计算任务迁移到Flink,最简单也是最有代表性的就是实时点击量(PV)统计。除了PV之外,我们还希望同时将内容...
Hive基础 Hive简介:(1)hql相对于MR程序没有复杂的代码,上手简单,会写sql的同学,hql也不在话下,区别不是很大。(2)Hive作为数据仓库使用,工作中常...
Hadoop进阶 地址:Hadoop进阶源码地址:github 1 第一章 概述 hadoop的体系架构 块: DataNode: NameNode: Secondary N...
简介 通常生产环境我们会用集群代替单机,主要是解决两个问题: 效率 稳定 如何提升效率?一个大大大任务,让一个人干需要一年,拆解一下让12个人同时干,可能只需要1个月。对于数...
集群规划 集群架构 其中 Distribute 是指创建分布式表的机器,在此文章中是将 Distribute 单独部署的,也可以将 Distribute 角色划分到每个 Re...