一、DataX是什么 DataX[https://github.com/alibaba/DataX]是阿里巴巴开源的离线数据同步工具,实现了包括主流RDBMS数据库、NoSQ...
IP属地:陕西
一、DataX是什么 DataX[https://github.com/alibaba/DataX]是阿里巴巴开源的离线数据同步工具,实现了包括主流RDBMS数据库、NoSQ...
理论与实践太难了,这玩意错误太多,遍地是坑,还有就是不知道怎么用,一脸懵逼 https://github.com/linkedin/datahub[https://githu...
数据仓库的建模方法有很多种,常见的有维度建模法、范式建模法、实体建模法等,下面主要介绍一下维度建模法。 维度建模的基本概念 维度建模(dimensional modeling...
一、问题 两个RDD进行join操作(即 rdd1.join(rdd2)) 会导致shuffle,这是因为join操作会对key一致的key-vlaue对进行合并,而** k...
1. 摘要 对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取...
0x01 今天,由于公司要进行新老数据仓库的迁移,于是顺便接手了其中一部分的工作,其实大部分迁移工作都比较简单,就是把从ods层-dw层-dm层-sh展示层中涉及到旧仓库的表...
产品基本功不仅是基础 曾经有更新过关于PRD撰写的案例。PRD的个人模版一直都需要新的输入,调和自己的理解,输出为更适合的PRD方式。 今天为各位朋友带来一个产品基本功的分享...
数据运营包含什么? 当我们完成了一款产品的上线后,接下来就要把它推向市场和用户了。在大量推广中会产生不少数据,通过运营这些数据我们可以获得反馈对产品开展迭代和优化工作。 数据...