240 发简信
IP属地:浙江
  • 【Hive系列】Hive快速复制一张分区表及数据

    关键字:Hive 复制表 Hive中有时候会遇到复制表的需求,复制表指的是复制表结构和数据。 如果是针对非分区表,那很简单,可以使用CREATE...

  • Resize,w 360,h 240
    数据仓库与BI

    核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQ...

  • Resize,w 360,h 240
    Flink1.7从安装到体验

    本文要点:实战Flink1.7的安装和Demo运行过程 1、准备工作;2、下载Flink1.7;3、安装Flink1.7;4、启动Flink1....

  • Resize,w 360,h 240
    Apache Spark GraphX 图文详解

    参考文档:http://spark.apache.org/docs/latest/graphx-programming-guide.htmlht...

  • Resize,w 360,h 240
    Spark GraphX图计算框架原理概述

    【转载】原文地址:原文地址 概述   GraphX是Spark中用于图和图计算的组件,GraphX通过扩展Spark RDD引入了一个新的图抽象...

  • Resize,w 360,h 240
    【Spark系列】spark中job,stage,task之间的关系

    1.什么是job Job简单讲就是提交给spark的任务。 2.什么是stage Stage是每一个job处理过程要分为的几个阶段。 3.什么是...

  • 【Spark系列】spark-submit提交参数调优

    1.num-executors 参数说明: 该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管...

  • Resize,w 360,h 240
    【编译安装】Spark2.3.3-CDH

    前置准备&软件安装 spark2.3.3源码官方Apache下载地址:http://spark.apache.org/downloads.htm...

  • Resize,w 360,h 240
    GraphFrames初探

    GraphFrames基本介绍 GraphFrames,该类库是构建在DataFrame之上,它既能利用DataFrame良好的扩展性和强...