240 投稿
收录了14篇文章 · 183人关注
  • Resize,w 360,h 240
    数据仓库知识体系

    现在所谓的大数据,AI,之类其实都不是什么新鲜事物,只不过现在的人太能喊口号。这些无非是操作大量数据,或者在大量数据基础上构建的应用。说白了,数...

  • 数仓数据质量检查

    数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据仓库各层数据表,还包括同一层的...

  • Resize,w 360,h 240
    SAP BW4HANA和传统BW的区别

    主要的区别在于数据建模,体现在两点: 1. 信息对象 BW4HANA信息对象更少,但是更灵活。 传统的BW受限于硬件的处理能力,为了保证数据处理...

  • Resize,w 360,h 240
    数仓分层模型|简练实用(推荐收藏)

    通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例 1.电信通讯stage层 -...

  • Resize,w 360,h 240
    Data Integration (kettle) 7.0 连接Hive

    背景 最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。 步骤 1.启动hiveServer2 kettle...

  • Resize,w 360,h 240
    使用kettle 定时同步csv文件数据到数据库表

    背景 最近由Java工程师转岗为ETL数据工程师,虽然以前也有为数据集成的项目储备过kettle相关的知识,但是一直没有在生产环境中实际使用过k...

  • Resize,w 360,h 240
    kettle 将mysql 导入到hive(借助Hadoop File Output组件)

    背景 在使用kettle 的表输出组件的时候,因为服务器hive版本为0.13,不支持insert into values的语法(hive 的0...

  • 在数据仓库中如何做分区表

    为什么做分区 分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这...

  • 在数据仓库中如何做分桶

    为什么分桶 (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相...

    0.1 FxData 0 1
  • 数据仓库中如何做增量处理

    为什么做增量数据量大,只需要增量最新被更改的数据。 如何做增量(1)insert into比如行为数据,发生一条记录就插入一条,数据不会被upd...

    0.1 FxData 0 5

专题公告

学习数据仓库DW技术,不限于RDBMS