在Flink中,由用户代码生成调度层图结构,可以分成3步走:通过Stream API编写的用户代码 -> StreamGraph -> JobGraph -> Executi...
描述 针对kafka0.8.2的API,Spark Streaming有两个版本的Source,Receiver和DirectAPI,其中Receiver模式使用HighLe...
1.创建与使用udf udf有两种使用方法,一是通过sparkSession注册,在sql中直接使用;二是在dataset中通过Column使用。 udf用法一:注册(在sq...
spark streaming的checkpoint目的是保证长时间运行的任务在意外挂掉后保证数据不丢失,checkpoint包含两种数据:metadata和data,本篇主...
背景 在博客网站发布markdown格式的博客越来越方便,但发现好多个人博客的样式大都一样,研究发现好多都是使用github+hexo+个人域名,貌似并不复杂,所以尝试搞起。...
概述 spark使用metrics的包路径为:org.apache.spark.metrics,核心类:MetricsSystem。可以把Spark Metrics的信息报告...
Source源码调用 Structured Streaming在Source阶段的调用过程如上图 1.在start时会启动StreamExecution内部属性microBa...
一、监控指标 使用sparkMetricSink监控的指标 二、考虑问题 spark自带的sink使用io.dropwizard.metrics,目前不支持prometheu...