240 发简信
IP属地:山东
  • Resize,w 360,h 240
    Flink 维表Join/双流Join 方法总结

    一、背景 事实表通常存储在kafka中,维表通常存储在外部设备中(比如MySQL,HBase)。对于每条流式数据,可以关联一个外部维表数据源,为...

  • Resize,w 360,h 240
    Hudi On Flink

    一、背景 传统数仓分为离线和实时两个部分 离线部分属于业务驱动,固定的计算逻辑,通过定时调度,最后产出报表; 实时部分属于需求驱动,需要灵活开发...

  • Resize,w 360,h 240
    Flink流处理API

    一、Environment 1.getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用...

  • Spark调优方案

    调优的思路依赖平时工作中不断总结所形成的丰富经验。而这些是很难直接从知识文档中获取的,应当具体问题具体分析,本文对Spark调优进行归纳总结,缩...

    2.0 688 2 11
  • Resize,w 360,h 240
    NIO框架:Netty入门

    Spark最一开始使用Akka作为内部通信部件,在Spark1.3为了解决大数据的传输问题,引入Netty通信框架,到了1.6版本Spark已经...

  • Kafka学习总结

    Kafka是一个分布式消息队列,为处理实时数据提供一个统一、高吞吐量、低等待的平台,提供了类似于JMS的特性,但是它并不是JMS规范的实现. J...

    4.0 748 3 15
  • Spark持久化缓存

    问题:1.RDD中基本所有的数据都是存储都在堆内存里,这部分数据是通过jvm中的GC管理的,进行Spark操作的时候可能会出现资源不一致的问题,...

  • Scala和Golang并发实现对比

    系统中有多个任务同时存在称之为“并发”,并发设计已然成为大规模集群框架的必要特征,本文简单的介绍Scala和golang的并发模型的设计,重点在...

  • HDFS balancer详解

    前言:Hadoop集群用久了以后,我们会发现一个问题,HDFS节点间的数据不平衡,尤其在新增和下架节点、或者人为干预副本数量的时候,多的达到80...