
split逻辑切分: 这里的分片不是物理分片,输入分片存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数据 例如10MB文件,切分10各1MB小文件,0-1MB位置...
缓慢变化维 slowly changing dimension(SCD) 常见缓慢变化维有三种: 1、直接覆盖的方式 2、新加一行数据:使用代理主键+生效失效时间或者代理主键...
hive 提供数据抽样功能,根据一定的规则进行数据抽样,目前支持三种抽样: 1、数据块抽样 tablesample()函数(hive0.8版本及以上支持) tablesamp...
面试中问到数仓分层的优缺点,其实在日常工作中,还真只是知道要这样做,但是为什么这样做,这样做的目的是什么,好像我从来没考虑过,一起来总结一下吧 数仓分层的优点: 1、数据的血...
第一次面试问到了presto的原理,没引起我的重视,今天第二次面试又问到这个presto的原理,我答的不是很好,赶紧回来查一下presto到底是怎么回事,来吧,跟我一起深入了...
第一步:调研 1、业务调研:与业务人员座谈,梳理业务过程,输出业务流程图及初步划分出dwd层的主题域 2、需求调研:梳理过去、现在及将来的数据需求和BI需求,输出数仓app层...