IP属地:江苏
开始之前,我们先聊下数据的分类吧。数据可以从多种维度进行分类,但从数仓开发角度看, 数据可以分为"结构化数据"、"半结构化数据"、"非结构化数据...
使用Dataworks完成数仓的离线全量+实时增量ETL可以有多种具体实现方案。笔者进行了多种实践,也大概了解到各种实践方案的优缺点。回忆当时,...
开始之前,先聊下企业数据的整体架构吧。一般来说,业务系统的数据库有较大的生产压力,大多数的做法是在企业生产库后会追加1到2个只读库,负责实时同步...
伴随前台业务系统的微服务化,各微应用的数据存储于各自微服务里,使得各业务系统之间数据的关联分析、数据的全生命周期的分析愈发困难。这往往逼迫各互联...
使用DataWorks开发过程中会存在各类配置,面对如此多的配置,如果不进行规范化的约定,后期业务过程将面临难以维护,参数定义冗乱等问题,在这里...
数据仓库主要包含数据集成、数据计算、数据服务、数据质量、数据资产等模块。在数仓建设中,对数据开发者说最主要工作在数据集成和数据计算,这2块在Da...
Dataworks里的资源组分为"公共资源组"、"独享资源组"。其中"公共资源组"是全租户下使用,在任务高峰期会造成数据调度、数据同步延迟,因此...
从阿里巴巴在2018年底正式推出数据中台这个概念后,数据中台就如火如荼的启航了。网络上对"数据中台概念"的理解,对"数据中台架构"的理解,这样的...