一、条件断点 循环中经常用到这个技巧,比如:遍历1个大List的过程中,想让断点停在某个特定值。 参考上图,在断点的位置,右击断点旁边的小红点,会出来一个界面,在Condit...
根据Kafka subscribe 和 assign接口使用以及rebalancing说明[https://dzone.com/articles/dont-use-apach...
Flink的作业StreamTask是任务执行的核心,其执行的本质即为各个operator的执行,而operator之间又有前后依赖关系,各operator构成一条链条(Ch...
StreamTask是流作业的任务基类,通常一个流作业的task启动由该方法的invoke函数为入口,本文基于Flink1.11.0该类生命流程进行分析。 StreamTas...
Spark的shuffleWriter一共有三种,本文分析 ByPassMergeSortShuffleWriter的shuffle写数据过程 从使用场景来看,ByPassM...
Spark的UnsafeShuffleWriter是Tungsten-Project(内存管理)引入的新的Shuffle Writer。该writer在写数据到磁盘时,会将数...
Spark的shuffleWriter一共有三种,本文分析 SortShuffleWriter的shuffle写数据过程. SortShuffleWriter是最为复杂的sh...
JobManager启动分析 JobManager/AM进程启动命令 JobManager启动类 org.apache.flink.yarn.entrypoint.YarnJ...
分布式计算的shuffle操作通常是分布式应用计算性能的瓶颈点,因此一个好的shuffle实现(shuffle write和shuffle read)对于分布式计算引擎的性能...
Zepplin 从0.9 版本(当前该版本还未release,只有预览版)开始支持Flink最新版本1.10,鉴于Flink1.10版本全面合入了Blink能力,在sql使用...
平台开发与项目或者一般的基于特定项目应用开发要求不尽一致,项目讲究的是快速上线。在快速开发的过程中难免有欠考虑的情况,但可以通过快速迭代,人肉运维,客户管理等方式维护项目。于...
Flink的TaskExecutor/Container进程主要运行工作线程,其内存管理对Flink作业的运行有重要意义。Flink的TaskExecutor进程的内存配置参...
版本 组件版本包名Flink版本1.8.2flink-1.8.2-bin-scala_2.11.tgzHadoop-shade2.7.5flink-shaded-hadoop...
Flink重要配置: Flink重要的配置类 配置类说明备注ResourceManagerOptions.javaThe set of configuration optio...
1 CPU和内存的交互 了解jvm内存模型前,了解下cpu和计算机内存的交互情况。【因为Java虚拟机内存模型定义的访问操作与计算机十分相似】 有篇很棒的文章,从cpu讲到内...
Data Enrichment 在流式处理作业(特别是实时数仓ETL作业)中,我们的数据流可以视为无界事实表,其中往往缺乏一些维度信息。例如,对于埋点日志流而言,为了减少传输...
@巍峩的磊哥 flink直接是做不了的,可以考虑多起一条流或用spark做
Flink 流流关联( Interval Join)总结Flink对流流JOIN的支持 Flink对于join的支持有多种支持,可参考 Flink Join类型, 本文主要讨论Time interval join支持Table A...