作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360...
Format Flink 提供了一套与表连接器(table connector)一起使用的表格式(table format)。表格式是一种存储格式,定义了如何把二进制数据映射...
注:本文不会着重分析MySQL binlog格式结构和解析过程,而在于debezium的架构设计。 Debezium is an open source distribute...
转载请注明原文地址https://www.jianshu.com/p/dd5c7c222703[https://www.jianshu.com/p/dd5c7c222703]...
转载请注明原文地址https://www.jianshu.com/p/b86cc9354b20[https://www.jianshu.com/p/b86cc9354b20]...
Flink cdc源码 前言 flink-cdc源码地址 : https://github.com/ververica/flink-cdc-connectors[https:...
1.Whole-stage code generation 之前讲解了手工编写的代码的性能,为什么比Volcano Iterator Model要好。所以如果要对Spark进...
CDC介绍 CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更...
对配置文件的配置及解析是每个框架的基本且必不可少的部分,本文主要对Hadoop中的配置文件的解析类Configuration的基本结构及主要方法进行介绍。Hadoop的配置文...
契约解释 lease每创建一个文件后,会为每个文件创建一个契约 先引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,这个事儿能成吗? 明显不可...
前言 说到分布式软件,就一定绕不过Hadoop。 Hadoop 是 Google 著名的 MapReduce 和 GFS 论文的开源实现,它为我们提供了一个分布式的数据存储和...
1. Why? 通过 maven-shade-plugin 生成一个 uber-jar,它包含所有的依赖 jar 包。 2. Goals GoalDescriptionsha...
官网地址:https://trino.io/docs/current/[https://trino.io/docs/current/]参阅书目《Trino: The defi...
一、hdfs读取流程 先获取文件流FSDataInputStream fsIn = FileSystem.open("path") 然后读取文件内容fsIn.read(buf...
一. Hadoop数据存放路径 core-site.xml文件位于$HADOOP_HOME/etc/hadoop路径下,配置了hadoop数据存放路径,包括namenode、...
1.多线程环境下SimpleDateFormat的不安全问题: SimpleDateFormat的format方法实际操作的就是Calendar(Calendar变量也就是一...
Stale DN 特性概述 默认情况下,HDFS 集群中一个 DN 意外退出或 down 掉后,NameNode 并不会立刻作出响应,而是一直要等到 10min 30s 之后...