240 发简信
IP属地:广东
  • Hive3新特性

    1.执行引擎变更:TEZ 不用支持缓慢过时的MapReduce了,14年测试时TEZ比MapReduce快100%。 2.鉴权变更:Ranger Hive默认使用storag...

  • 240
    数据中台思考

    背景 最近一段时间,经常与各位技术大佬说起中台服务相关的概念,在脑海中第一个概念SOA的概念,但是回想一下,应该会有差别: SOA:业务系统分解为多个组件,组件之间独立提供...

  • 七、Flink Event Time Watermark

    在 Apache Flink 中使用 watermark 的 4 个理解 在下文中的例子中,我们有一个带有时间戳的事件流,但是由于某种原因它们并不是按顺序到达的。图中的数字代...

  • Apache Flink 学习笔记(二)

    上一篇 Apache Flink 学习笔记(一) 简单示范了批处理的使用,本篇展示流式处理的使用方法。 流处理也叫无界处理,因为数据是源源不断的被加载进来的,流处理需要用到D...

  • 240
    数仓--Theory--数仓数据质量监控

    暂时定义为数仓的质量管理,完全可以定义为数据中台的质量管理 数据质量的理解 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须...

  • 240
    Spark Sql 运行原理

    Spark SQL 原理和运行机制 Catalyst 执行优化器 Catalyst 是 Spark SQL 执行优化器的代号,所有 Spark SQL 语句最终都能通过它来解...