240 发简信
IP属地:上海
  • 120
    数据仓库分层架构深度讲解

    前言 一、为什么要分层 分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因: 清晰数据结构: 每一个数据分层都有它的作用域,这样...

  • 数仓数据质量检查

    数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据仓库各层数据表,还包括同一层的有上下游关系的数据表。主要有三...

  • 120
    spark LDA scala版本

    本文主要介绍spark LDA的使用,并且编写了EMLDAOptimizer文档推断的方法。 大纲 LDA简单介绍 spark LDA代码实例 求文档的相似性 计算新文档的话...