IP属地:广东
1. Flink运行框架 1.1 运行组件: 作业管理器(JobManager):请求slot 资源管理器(ResourceManager):管...
1. BDP平台建议设置 并行度 Parallelism在分布式的运行环境中,每个 opetator(例如 source、map 等 opera...
1. Hive基本概念 数据仓库工具,底层存储为HDFS,类SQL的查询,转化为mapreduce。执行程序运行在Yarn上 2. hive 内...
1. kafka概况 消息队列的好处:解耦,可恢复性,缓冲,峰值处理能力,异步通讯 概念:Kafka 是一个分布式的基于发布/订阅模式的消息队列...
1.Kafka 中的 ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么? ISR: 和 l...
1.基础知识 clickhouse的特点: DBMS 的功能:使用SQL 列式存储: 在列的统计计算上有优势,便于压缩,节省磁盘空间 高吞吐写入...
sql执行顺序 (1)from (3) join (2) on (4) where (5)group by(开始使用select中的别名,后面的...
1.小表大表join(MapJOIN):使用map join 让小的维度表先进内存,在map端完成join set hive.auto.conv...