IP属地:广东
小表Join大表:Map Join小表缓存并发送到各个节点,没有Shuffle的过程 大表Join大表:Reduce Join大表Join大表的...
延迟加载 使用场合 ⼀对多,多对多:通常情况下采⽤延迟加载⼀对⼀(多对⼀):通常情况下采⽤⽴即加载 配置 原理 使用动态代理,拦截获取元素的方法...
分区表的设计和优化 普通表结构问题 使用分区表可以优化上述查询问题 分桶表的设计和优化 Join问题 分桶表设计 Join可以在同一个桶之间Jo...
业务理解 业务需求 创建表 直接使用explode报错 explode炸开之后代表一张表 latern view加上explode latera...
实现步骤 对比SparkSQL注册UDF的过程SparkSQL用户自定义函数UDF和UDAF、UDTF[https://www.jianshu....
load Local指的是HiveServer2机器 事务表 实现原理在原始数据文件的基础上,新增delta保存事务操作的记录增量数据,每一次事...
需求 方案1分组统计每个月消费金额,然后自连接,再分组聚合 方案2分组统计,窗口聚合函数
需求 方案1表中的数据自连接,构建笛卡儿积连续N天需要join多次 方案2使用窗口函数
1、join的时候两个表有相同的字段要用别名提出来2、子查询AS是在括号外面,而不是在括号里面3、先limit再offset,而不是反过来4、等...