240 发简信
IP属地:浙江
  • 元数据系统的产品形态

    上一篇 给初心者的数据仓库元数据系统开发指南 主要是描述了元数据的基本概念和典型需求。实际的开发和使用中,还有个基本问题容易被混淆,关于元数据的...

  • Resize,w 360,h 240
    给初心者的数据仓库元数据系统开发指南

    加过一些数据开发的社群,经常会有人问元数据系统怎么开发,大概网上很难搜到相关的好文章。 什么是元数据 首先,元数据的概念,通常解释为数据的数据,...

  • 掌控数据仓库开发的主动权

    今天团队在讨论过去一段时间的问题,有提到这么一个观点:作为数据仓库工程师,被动接了很多需求,数据的业务价值不明显。 互联网公司的业务变化快,经常...

  • 数据仓库的持续集成

    都说互联网公司快,在大数据开发领域也是如此,数据仓库的各ETL任务每天都有更新,而源头的数据也是在不断变化,需要保证快速更变的同时,保证系统稳定...

  • Hive表结构实时同步到元数据系统

    数据仓库的元数据系统需要实时获取最新的Hive表结构,比如用户新建了一张表或新加一个字段,希望能马上在元数据系统里查询到。 实时获取数据,无非是...

  • Hive表数据质量校验的设计与开发

    一张Hive计算完成后,开发者会希望知道计算结果是否符合预期,比如是否有脏数据,是否数据量符合预期。这里就有两个问题,一个是校验什么,另一个是怎...

  • Resize,w 360,h 240
    失信人抓取实践

    失信人,也就是俗称的老赖,会认为是高风险或者低信用的用户,在很多业务场景下需要做好监控或行为限制。比如失信人卖货,捐款跑路的风险比普通人高,又比...

  • 数据仓库敏感字段自动识别

    敏感字段标注问题 数据仓库里,多多少少会有一些敏感字段,比如用户手机号、通信地址,一旦泄露危害很大。而数据仓库需要尽可能方便让用户使用,同时又要...