现在所谓的大数据,AI,之类其实都不是什么新鲜事物,只不过现在的人太能喊口号。这些无非是操作大量数据,或者在大量数据基础上构建的应用。说白了,数...
现在所谓的大数据,AI,之类其实都不是什么新鲜事物,只不过现在的人太能喊口号。这些无非是操作大量数据,或者在大量数据基础上构建的应用。说白了,数...
数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据仓库各层数据表,还包括同一层的...
主要的区别在于数据建模,体现在两点: 1. 信息对象 BW4HANA信息对象更少,但是更灵活。 传统的BW受限于硬件的处理能力,为了保证数据处理...
通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例 1.电信通讯stage层 -...
背景 最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。 步骤 1.启动hiveServer2 kettle...
背景 最近由Java工程师转岗为ETL数据工程师,虽然以前也有为数据集成的项目储备过kettle相关的知识,但是一直没有在生产环境中实际使用过k...
背景 在使用kettle 的表输出组件的时候,因为服务器hive版本为0.13,不支持insert into values的语法(hive 的0...
为什么做分区 分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这...
为什么分桶 (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相...
为什么做增量数据量大,只需要增量最新被更改的数据。 如何做增量(1)insert into比如行为数据,发生一条记录就插入一条,数据不会被upd...
专题公告
学习数据仓库DW技术,不限于RDBMS