240 发简信
IP属地:北京
  • 120
    Mysql 日志采集

    为什么通过日志方式采集数据? 减少对业务库的入侵,如果使用全量方式获取数据会对业务库造成很大的性能影响。通过流式采集binlog对业务库的入侵性降到最低。 目前流式采集bin...

  • 120
    浅谈数据质量管理:为了更清醒的数据

    做过数据产品的人都会知道,质量高的数据对于产品的意义。笔者在之前曾经历过数据质量管理的具体功能设计,算是较为完整地感受过数据质量管理过程。所以在此简单复盘下经验,借此抛砖引玉...

  • 120
    没有银弹:数据湖的现实与梦想

    数据湖正在成为一种越来越流行的大数据解决方案,而数据湖这个词已经被大数据供应商赋予了太多不同的含义,如果有什么工作是传统数据仓库做不了的,那就把它塞进数据湖,以至于数据湖已经...

  • :+1: :+1: :+1:

    Spark 多个Stage执行是串行执行的么?

    上次在做内部培训的时候,我讲了这么一句: 一个Job里的Stage都是串行的,前一个Stage完成后下一个Stage才会进行。 显然上面的话是不严谨的。 看如下的代码: 这里...

  • 120
    Spark 多个Stage执行是串行执行的么?

    上次在做内部培训的时候,我讲了这么一句: 一个Job里的Stage都是串行的,前一个Stage完成后下一个Stage才会进行。 显然上面的话是不严谨的。 看如下的代码: 这里...

  • good,thanks:heart_eyes:

    Spark中CartesianRDD依赖关系的特殊之处

    前言 RDD之间的依赖关系一般分为两种,宽依赖和窄依赖。 在网上好多博客中是这样描述宽依赖和窄依赖的特点 窄依赖每个父RDD的一个Partition最多被子RDD的一个Par...

  • 120
    Java程序猿想超神?先回答这些问题。

    一、Java基础 实例方法和静态方法有什么不一样? Java中的异常有哪几类?分别怎么使用? 常用的集合类有哪些?比如List如何排序? ArrayList和LinkedLi...