Avatar notebook default
8篇文章 · 10042字 · 1人关注
  • Resize,w 360,h 240
    8.Spark Sql

    定义 SparkSql是Apache Spark大数据框架的一部分,主要用于处理结构化数据和对Spark数据执行类sql的查询,Spark为其提...

  • Resize,w 360,h 240
    7.Spark Streaming

    Spark Streaming是Spark核心api的一个拓展,可以实现高吞吐量/具备容错机制的实时流数据的处理Spark Streaming ...

  • Resize,w 360,h 240
    6.Spark的wordCount原理解析

    针对以下wordCount的实现原理以画图的方式进行分析 代码 图解

  • 5.Spark的wordCount(java/scala)

    在代码实现之前,先查看一下数据源是怎样的 截取了文本的第一段,已经对文本进行预处理,以空格将单词分割。 Java实现 输出结果 Scala实现 ...

  • Resize,w 360,h 240
    4.Spark调优

    在Spark中,每一个进程包含一个executor对象,一个executor包含一个线程池,每个线程执行一个tasks 线程池的好处就在于省去了...

  • Resize,w 360,h 240
    3.Spark Core

    Spark是基于弹性分布式数据集(RDD)的模型,具有良好的通用性、容错性与并行处理数据的能力那么什么是弹性分布式内存呢?内存即使再大也有放不下...

  • Resize,w 360,h 240
    2.Spark与Hadoop的对比

    上一篇文章---Spark概述:https://www.jianshu.com/p/8f48abff7a5b 这篇文章主要是与MapReduce...

  • Resize,w 360,h 240
    1.Spark的概述

    Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎...

文集作者