240 投稿
收录了12篇文章 · 6人关注
  • Resize,w 360,h 240
    Spark - 动态注册UDF

    昨天有位大哥问小弟一个Spark问题,他们想在不停Spark程序的情况下动态更新UDF的逻辑,他一问我这个问题的时候,本猪心里一惊,Spark*...

  • Resize,w 360,h 240
    简单说说数据仓库

    数据仓库介绍 数据仓库是集成的、面向主题的、反应历史的数据的集合。它需要具有高效查询、高质量的、可扩展的的特性。数据仓库是协助运营及管理人员及时...

  • Resize,w 360,h 240
    DataX的执行流程分析

    开篇  最早接触DataX是在前阿里同事在现在的公司引入的时候提到的,一直想抽空好好看看这部分代码,因为DataX的代码框架设计的很好,非常适合...

  • Resize,w 360,h 240
    ETL工具--datax

    datax是什么 阿里开源的ETL工具(github地址:https://github.com/alibaba/DataX),ETL是描述从数据...

  • Hive-hiveserver2-beeline

    在Hadoop集群中任选一台服务器作为Hive的服务器。主要配置Hive,配置好后,启动该服务器的meterstore,并配置<!--配置使远程...

    0.1 liuzx32 0 1
  • Resize,w 360,h 240
    Flink学习笔记:Flink开发环境搭建

    本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实...

  • Flink-1.8 On HDP yarn cluster的坑

    Flink1.8版本相比1.7在打包和jar包拆分上作出些许调整,对使用者有一定影响;如下是笔者在使用flink-1.8 on hdp yarn...

    0.1 WestC 1 2
  • Resize,w 360,h 240
    Sqoop最佳实践

    一、什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS...

  • 2018-04-09 数据仓库技能要求

    一、基础技能1 关系数据库基础1.1. 关系数据库-mysql1.1.1 mysql 应用1.1.2 mysql sql 优化1.2. 非关系型...

  • 如何做Spark 版本兼容

    我们知道Spark2.0 ,Spark 1.6还有Spark 1.5 三者之间版本是不兼容的,尤其是一些内部API变化比较大。如果你的系统使用了...

    0.1 祝威廉 0 11

专题公告

大数据平台建设