数据仓库DW - 专题

投稿

数据仓库DW

收录了14篇文章 · 183人关注

数据仓库知识体系
现在所谓的大数据，AI，之类其实都不是什么新鲜事物，只不过现在的人太能喊口号。这些无非是操作大量数据，或者在大量数据基础上构建的应用。说白了，数...

0.1 迷之老王 15 4
数仓数据质量检查
数据仓库上下游表间数据质量检查产生于下游表生成过程中，也是下游表本身的数据质量控制问题，上下游的关系并不仅限于数据仓库各层数据表，还包括同一层的...

0.3 王吉吉real 0 7

SAP BW4HANA和传统BW的区别
主要的区别在于数据建模，体现在两点： 1. 信息对象 BW4HANA信息对象更少，但是更灵活。传统的BW受限于硬件的处理能力，为了保证数据处理...

锅巴侠 1 2
数仓分层模型|简练实用（推荐收藏）
通过阅读本文，可以让你快速了解数仓如何分层，合理，实用。笔者坚持原创，根据实践总结，希望对新手有所帮助。分层案例 1.电信通讯stage层 -...

1.7 不务正业的coder 5 68 1
Data Integration (kettle) 7.0 连接Hive
背景最近需要将mysql的数据库的数据导入到hive里，期间遇到了很多坑，这次来总结一下。步骤 1.启动hiveServer2 kettle...

data_haozi 3 3
使用kettle 定时同步csv文件数据到数据库表
背景最近由Java工程师转岗为ETL数据工程师，虽然以前也有为数据集成的项目储备过kettle相关的知识，但是一直没有在生产环境中实际使用过k...

0.4 data_haozi 0 8
kettle 将mysql 导入到hive（借助Hadoop File Output组件）
背景在使用kettle 的表输出组件的时候，因为服务器hive版本为0.13,不支持insert into values的语法（hive 的0...

data_haozi 2 3

在数据仓库中如何做分区表
为什么做分区分区表将数据组织成分区，主要可以提高数据的查询速度。如果把一年或者一个月的日志文件存放在一个表下，那么数据量会非常的大，当查询这...

FxData 0 0
在数据仓库中如何做分桶
为什么分桶（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相...

0.1 FxData 0 1
数据仓库中如何做增量处理
为什么做增量数据量大，只需要增量最新被更改的数据。如何做增量（1）insert into比如行为数据，发生一条记录就插入一条，数据不会被upd...

0.1 FxData 0 5