问题描述 我们最近有个项目,需要实时消费订单成单的消息,提炼完数据后把结果写入HDFS,因此checkpointConfiguration 自然而然也采用默认配置写到HDFS...
问题描述 我们最近有个项目,需要实时消费订单成单的消息,提炼完数据后把结果写入HDFS,因此checkpointConfiguration 自然而然也采用默认配置写到HDFS...
JIRA这个工具接触有好几年了,在多个海外项目上都用过这个工具。去年又在项目上深度使用后就有点爱不释手了,回国后也在找机会推荐给其它项目上用。最近正好有新项目需要用,借这个机...
在探讨Java垃圾回收机制之前,我们首先应该记住一个单词:Stop-the-World。Stop-the-world意味着 JVM由于要执行GC而停止了应用程序的执行,并且这...
最近做了一个将结果数据写入到Kafka的需求,sink部分代码如下: val kafkaProducer: FlinkKafkaProducer011[String] = n...
state创建 state清理 (TTL/clear) state存储 (分布式) state的恢复 flink中对状态的分类有以下2种: Keyed State (跟key...
redis pipeline 什么是流水线(pipeline) 首先来看 redis 执行一次操作所需要的时间: 1 次时间 = 1 次网络时间 + 1次命令时间 执行 n ...
需求 spark应用程序中,只要task失败就发送邮件,并携带错误原因。 背景 在spark程序中,task有失败重试机制(根据 spark.task.maxFailures...
使用场景:在处理数据的时候,有些配置是要实时动态改变的,比如说我要过滤一些关键字,这些关键字呢是在MYSQL里随时配置修改的,那我们在高吞吐计算的Function中动态查询配...
Flink提供了一个分布式缓存,类似于Apache Hadoop,可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件,如字典或机器学习的回归模型。缓存的...
前言 简书快正式从小黑屋里出来了,所以是时候重启更新了。这段时间积攒了不少要写的东西,逐个击破吧。 两阶段提交(two-phase commit, 2PC)是最基础的分布式一...
Flink JobManager HA高可用 概述 本文主要讲解下Flink standalone下JobManager的HA高可用和Flink on yarn下JobMan...
传统的游戏服务器要么是单线程要么是多线程,过去几十年里CPU一直遵循摩尔定律发展,带来的结果是单核频率越来越高。而近几年摩尔定义在CPU上已然失效,为什么呢? 大于在2003...
1、Spark Streaming总体运行架构 SparkStreaming分为Driver端和Client端,运行在Driver端的是StreamingContext实...
前段时间学习了spark streaming采用kafka作为数据源时,数据接收并行度这一部分的源代码。本文主要将学习的体会记录一下,有理解不对的地方请多多指教。 Strea...
关于Spark Streaming中的任务有如下几个概念: Batch Job Stage Task 其实Stage,Task都是Spark Core里就有的概念,Job 在...
1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢? 设置mapred.tasktracker.reduce.t...
零、序言 ⚪ spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。 ⚪ 同...
什么是Elasticsearch? Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。 ...