思路:读入数据时,用flatMap算子过滤出PV(即PageVisit)的一条条的数据,在process算子中,用set对用户的id作去重,从而set的size即UV(Use...
思路:读入数据时,用flatMap算子过滤出PV(即PageVisit)的一条条的数据,在process算子中,用set对用户的id作去重,从而set的size即UV(Use...
open方法只和并行度有关,并行度为几,则open执行几次: 修改代码,把并行度设为3,在reduce方法中输出value1,value2的值: id相同的首条记录,不调用r...
输入文件: min算子 输入输出之对照: Reduce算子 为了排除并行度带来的影响,先把并行度设置为1: 如下两图,分别是 关键逻辑 和 输出结果与输入文件的对比: 另外,...
Person带有参构造方法(上文系无参构造方法):
实体类: 测试代码: 输入输出:
Flink中的Local-cluster(本地集群)模式,主要用于测试、学习,可帮助我们快速入门flink。 1)local-cluster模式配置 local-cluste...
启动hdfs及yarn、zk后: 启动yarn的per job: 在yarn的web页面观察: 输入测试数据: 在flink的web页面观察:
启动hdfs及yarn: 配置yarn,最多重启RM 4次: 修改flink-conf.yaml : 如下图,kill了hadoop102的JobManager后,flink...
Push 如下图,读到了很多历史数据: 即时发2条消息: 即时收到2条消息: Pull DefaultLitePullConsumer
1)集群信息 如下四图,展示了集群的主要信息(为方便起见,只有一个broker,且系单副本): 2)同步的生产者 消费者代码: 生产者代码: 消费者运行结果(先运行生产者,再...
1)hadoop的1.x、2.x版本 如下图,1.x的hadoop,资源调度和任务调度耦合在一起,无法扩展——自然就无法与spark结合。 而2.x的hadoop,把资源调度...
Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。 本...