前言 好久不见(鞠躬 今年以来的主要工作方向之一就是部门内流批一体能力的建设与落地。虽然这个概念早已成为老生常谈,并且笔者现在还没什么fancy的成果(惭愧),但今天还是想随...
前言 好久不见(鞠躬 今年以来的主要工作方向之一就是部门内流批一体能力的建设与落地。虽然这个概念早已成为老生常谈,并且笔者现在还没什么fancy的成果(惭愧),但今天还是想随...
Secondary NameNode不是高可用节点,主要功能是做checkpoint
Spark 处理小文件1. 小文件合并综述 1.1 小文件表现 不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark...
一、iTerm2简介: Mac OS自带的终端,用起来虽然有些不太方便,界面也不够友好,iTerm2是一款相对比较好用的终端工具.iTerm2常用操作包括主题选择、声明高亮、...
列裁剪和分区裁剪 最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。当列很多或者数据量很大时,如果select *或者不指定分区,全列扫描和全...
Flink源码分析系列文档目录 请点击:Flink 源码分析系列文档目录[https://www.jianshu.com/p/d4a372809e3d] Flink 批处理问...
前言 相信我们在初学Flink SQL时,多少遇到过像这样的错误信息: 为什么有些下游算子不能接受上游算子发来的UPDATE和DELETE消息呢?本文以1.13版本为准来简单...
2021年的最后几个小时了,抽空来写几笔。待会儿再揭晓年度最佳单曲。 健康 新冠疫情仍然没有趋缓的迹象。看着近期又开始上涨的确诊病例数,还有承载着不同生活轨迹的流调报告,有时...
现有需求,需要使用pg的数据实时统计一些指标,经过调研,决定使用kafkaCat或debezium将pg的操作日志同步到kafka中,现将简单测试debezium的过程总结一...
给别人的歌,最终也会是给自己的歌。 一切为了辉煌的明天。 再见,祝好~ 2021年1月动画《奇蛋物语》(Wonder Egg Priority)片头曲https://y.qq...
学习studying
目录 前言 Spark WordCountSparkConfSparkContextRDDRDD操作(算子) Spark Web UIApplicationJobStageT...
前言 之前讲解Flink SQL执行流程时留下了代码生成的坑,在百忙之中抽时间补一补。 代码生成简介 代码生成(code generation)是当今各种数据库和数据处理引擎...
前言 “访问者模式”在之前的文章里已经出现过几次了,择日不如撞日,今天接着聊吧。 The Visitor Pattern 访问者模式属于GoF设计模式分类中的行为型模式。它的...
HiveQL解析流程: 1.Hive根据Antlr定义的词法、语法规则完成词法、语法分析将HQL解析为AST Tree;2.遍历AST Tree,抽象出查询的基本组成单元Qu...
Hive版本:2.3.7 CliDriver类image.png main方法: run方法:主要是各种参数的初始化 executeDriver方法: processLine...