240 发简信
IP属地:湖南
  • Spark Streaming Source Kafka 0.8.2

    描述 针对kafka0.8.2的API,Spark Streaming有两个版本的Source,Receiver和DirectAPI,其中Rec...

  • Spark UDF and functions(一)

    1.创建与使用udf udf有两种使用方法,一是通过sparkSession注册,在sql中直接使用;二是在dataset中通过Column使用...

  • Resize,w 360,h 240
    Streaming metadate checkpoint详解

    spark streaming的checkpoint目的是保证长时间运行的任务在意外挂掉后保证数据不丢失,checkpoint包含两种数据:me...

  • Docker部署hexo在github搭建博客

    背景 在博客网站发布markdown格式的博客越来越方便,但发现好多个人博客的样式大都一样,研究发现好多都是使用github+hexo+个人域名...

  • Spark metrics整理

    概述 spark使用metrics的包路径为:org.apache.spark.metrics,核心类:MetricsSystem。可以把Spa...

  • Resize,w 360,h 240
    Spark Structured Streaming Source Sink整理

    Source源码调用 Structured Streaming在Source阶段的调用过程如上图 1.在start时会启动StreamExecu...

  • prometheus监控spark on yarn方案(一)

    一、监控指标 使用sparkMetricSink监控的指标 二、考虑问题 spark自带的sink使用io.dropwizard.metrics...