c8e15d97c9f0 - 简书

发简信

4
关注
1
粉丝
0
文章
0

字数
0

收获喜欢

IP属地：广东

c8e15d97c9f0

Spark Structured Streaming 写checkpoint 到HDFS 抖动的排查
问题描述我们最近有个项目，需要实时消费订单成单的消息，提炼完数据后把结果写入HDFS，因此checkpointConfiguration 自然而然也采用默认配置写到HDFS...

华安火车迷
2972 0 10
c8e15d97c9f0

JIRA的使用介绍（一）- 概念篇
JIRA这个工具接触有好几年了，在多个海外项目上都用过这个工具。去年又在项目上深度使用后就有点爱不释手了，回国后也在找机会推荐给其它项目上用。最近正好有新项目需要用，借这个机...

数行者
191778 3 122

c8e15d97c9f0

常见的GC回收算法及其含义
在探讨Java垃圾回收机制之前，我们首先应该记住一个单词：Stop-the-World。Stop-the-world意味着 JVM由于要执行GC而停止了应用程序的执行，并且这...

CodeKing2017
10848 1 14
c8e15d97c9f0

记一次Flink写入Kafka坑点
最近做了一个将结果数据写入到Kafka的需求，sink部分代码如下： val kafkaProducer: FlinkKafkaProducer011[String] = n...

Flink实战剖析
6634 3 7
c8e15d97c9f0

Flink 状态
state创建 state清理 (TTL/clear) state存储 (分布式) state的恢复 flink中对状态的分类有以下2种: Keyed State (跟key...

天之見證
2441 1 5
c8e15d97c9f0

redis 学习（11）-- redis pipeline
redis pipeline 什么是流水线（pipeline）首先来看 redis 执行一次操作所需要的时间： 1 次时间 = 1 次网络时间 + 1次命令时间执行 n ...

希希里之海
1468 0 4
c8e15d97c9f0

铛铛铛clark
写了 45060 字，被 242 人关注，获得了 120 个喜欢

Apache Flink Contributor，巴西铁杆，巴萨死忠，硬摇粉，分布式系统爱好者，github: <a href="https://github.com/Clarkkkkk" rel="nofollow" target="_blank">https://github.com/Clarkkkkk</a>

c8e15d97c9f0

spark任务之Task失败监控
需求 spark应用程序中，只要task失败就发送邮件，并携带错误原因。背景在spark程序中，task有失败重试机制（根据 spark.task.maxFailures...

BIGUFO
7926 4 12
c8e15d97c9f0

Flink中的广播流之BroadcastStream
使用场景：在处理数据的时候，有些配置是要实时动态改变的,比如说我要过滤一些关键字，这些关键字呢是在MYSQL里随时配置修改的，那我们在高吞吐计算的Function中动态查询配...

和平菌
31412 5 8
c8e15d97c9f0

Flink的分布式缓存
Flink提供了一个分布式缓存，类似于Apache Hadoop，可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件，如字典或机器学习的回归模型。缓存的...

JasonLee实时计算
5163 0 2
c8e15d97c9f0

两阶段提交（2PC）与其在Flink exactly once中的应用
前言简书快正式从小黑屋里出来了，所以是时候重启更新了。这段时间积攒了不少要写的东西，逐个击破吧。两阶段提交（two-phase commit, 2PC）是最基础的分布式一...

LittleMagic
8711 7 21
c8e15d97c9f0

Flink JobManager HA高可用
Flink JobManager HA高可用概述本文主要讲解下Flink standalone下JobManager的HA高可用和Flink on yarn下JobMan...

it_zzy
8342 3 9

c8e15d97c9f0

Actor模型
传统的游戏服务器要么是单线程要么是多线程，过去几十年里CPU一直遵循摩尔定律发展，带来的结果是单核频率越来越高。而近几年摩尔定义在CPU上已然失效，为什么呢？大于在2003...

JunChow520
66663 14 58
c8e15d97c9f0

Spark Streaming运行架构
1、Spark Streaming总体运行架构 SparkStreaming分为Driver端和Client端，运行在Driver端的是StreamingContext实...

土土的简书
1197 0 3
c8e15d97c9f0

Spark-streaming-2.0-Kafka数据接收并行度源码学习
前段时间学习了spark streaming采用kafka作为数据源时，数据接收并行度这一部分的源代码。本文主要将学习的体会记录一下，有理解不对的地方请多多指教。 Strea...

疯狂的轻骑兵
5616 6 12
c8e15d97c9f0

Spark Streaming 不同Batch任务可以并行计算么？
关于Spark Streaming中的任务有如下几个概念： Batch Job Stage Task 其实Stage,Task都是Spark Core里就有的概念，Job 在...

祝威廉
5912 4 23
c8e15d97c9f0

reduce task个数到底和哪些因素有关
1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关，而reduce的数量跟哪些因素有关呢？设置mapred.tasktracker.reduce.t...

__豆约翰__
2588 0 2

c8e15d97c9f0

五分钟加简历-精通sparksql源码
零、序言 ⚪ spark1.6之后引入DataSet，一种基于RDD的高级抽象，在RDD之上加入了scheme信息，给RDD的元素的每一列提供了名称和数据类型的标志。 ⚪ 同...

曾二爷耶
794 0 8
c8e15d97c9f0

Elasticsearch简介与实战
什么是Elasticsearch? Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎，它的底层是开源库Apache Lucene。 ...

山阴少年
192218 6 137 1

暂无个人介绍