一、 什么是数据仓库、数据集市和数据湖? 1、数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以...
一、 什么是数据仓库、数据集市和数据湖? 1、数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以...
1. 主流OLAP引擎技术原理大阅兵 1.1 何为OLAP 在前文 BI系统与ClickHouse:探索式BI的OLAP技术演进之路 [https://kstack.corp...
前言 初学hadoop,网上的相关资料很多,讲解大同小异:一堆专业术语+火星文 学习起来很困难,很难探究出它的存在意义,因此本文结合自己的理解,用地球人的语言来描述hadoo...
时间语义 上图是数据流式处理过程,涉及到两个重要的时间点:事件时间(Event Time)和处理时间(Processing Time)。 事件时间(Event Time):即...
1. 版本说明 组件版本hudi10.0flink13.5hive3.1.0 2. 实现效果 通过flink cdc 整合 hudi 到hive flink cdc 讲解f...
一、数据分析引擎 大数据的终极目标,是使用 SQL 语句来处理大数据,这样就能方便不知道怎么编程的数据分析人员进行数据分析。要实现这个目标,就需要大数据分析引擎,常见的有...
肝了几个晚上,梳理总结了一份万字长文超详述hive企业级优化文章,也整理了一份hive优化总结思维导图和hive优化详细PDF文档,有需要可关注公众号《大数据阶梯之路》找小编...
1.前言 在上一篇文章当中说了,如果需要进行双流join操作,可以选择在窗口的范围内进行,join操作会以窗口范围内的所有数据做inner join,然后将匹配到的所有数据交...
1.分布式改造必须先解决以下几个问题: 第一,应用需要微服务化。即将大量粗粒度的应用逻辑拆小做服务化改造第二,必须先建立分布式服务框架。必须具备分布式配置系统、分布式RPC框...