TOTower - 简书

TOTower

IP属地：山东

Flink 维表Join/双流Join 方法总结
一、背景事实表通常存储在kafka中，维表通常存储在外部设备中(比如MySQL，HBase)。对于每条流式数据，可以关联一个外部维表数据源，为...

0.6 3338 0 4
Hudi On Flink
一、背景传统数仓分为离线和实时两个部分离线部分属于业务驱动，固定的计算逻辑，通过定时调度，最后产出报表；实时部分属于需求驱动，需要灵活开发...

0.1 1389 0 1

Flink流处理API
一、Environment 1.getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用...

0.1 995 0 2
Spark调优方案
调优的思路依赖平时工作中不断总结所形成的丰富经验。而这些是很难直接从知识文档中获取的，应当具体问题具体分析，本文对Spark调优进行归纳总结，缩...

2.0 702 2 11
NIO框架：Netty入门
Spark最一开始使用Akka作为内部通信部件，在Spark1.3为了解决大数据的传输问题，引入Netty通信框架，到了1.6版本Spark已经...

1.6 476 1 8
Kafka学习总结
Kafka是一个分布式消息队列，为处理实时数据提供一个统一、高吞吐量、低等待的平台，提供了类似于JMS的特性，但是它并不是JMS规范的实现. J...

4.0 781 3 15
Spark持久化缓存
问题：1.RDD中基本所有的数据都是存储都在堆内存里，这部分数据是通过jvm中的GC管理的，进行Spark操作的时候可能会出现资源不一致的问题，...

0.8 865 0 4

Scala和Golang并发实现对比
系统中有多个任务同时存在称之为“并发”，并发设计已然成为大规模集群框架的必要特征，本文简单的介绍Scala和golang的并发模型的设计，重点在...

0.2 1053 0 3
HDFS balancer详解
前言：Hadoop集群用久了以后，我们会发现一个问题，HDFS节点间的数据不平衡，尤其在新增和下架节点、或者人为干预副本数量的时候，多的达到80...

0.6 8947 0 6