01 什么是数据漂移 数据漂移指的是在数据同步过程之中,ODS表同一个业务日期包含前一天的数据或丢失了当天的数据、或者包含后一天的数据。 02 ...
Spark任务通过application id在Spark UI查看任务执行状态,任务大多数以on yarn的形式提交到Spark集群。 1、定...
Spark有BroadCastJoin、ShuffleHashJoin、SortMergeJoin三种join方式。首先讲一下hash join...
1、union 和 union all的区别 union会对结果进行去重,union all会保留重复数据 2、窗口函数rank() over(...
1 整体优化思路 1、从数据任务本身出发,优化业务逻辑代码,偏业务优化 2、 从集群的资源参数进行优化,偏技术优化 3、从全局的角度观察任务的调...
给大家分享一些只有经历了才能深切感同身受的几句话,与君共勉: 1、人生没有彩排,看似有意无意的安排,都会成为成为界定结果。 2、愿你好好珍惜现在...
01 国外有一个叫摩根的青年,每天闲的蛋疼,有天突发奇想——连续吃三十天麦当劳会怎样? 他说干就干,一日三餐都吃麦当劳,连吃三十天。 他还用摄像...
2021 年,我给自己定的一个关键词是「平衡」。 说到平衡,可能很多人会想到工作和生活的平衡,所谓的 Work-Life Balance。但我并...
Apache Flink是一个开源的分布式、高性能、高可用、准确的流处理框架。 主要由Java代码实现。 支持实时流(stream)处理和批(b...