这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇...
Spark专用名词 RDD ---- resillient distributed dataset 弹性分布式数据集 Operation ---- 作用于RDD的各种操作分为...
这篇文章对大数据未来的发展趋势做了一个推演,如能对大家有所启发更好,否则权当做一篇碎片化时代产生的快速消费品一看而过即可。 大数据第一重 这是大数据的第一阶段,也是大数据当前...
Spark读取配置 我们知道,有一些配置可以在多个地方配置。以配置executor的memory为例,有以下三种方式: spark-submit的--executor-mem...
上次在做内部培训的时候,我讲了这么一句: 一个Job里的Stage都是串行的,前一个Stage完成后下一个Stage才会进行。 显然上面的话是不严谨的。 看如下的代码: 这里...
2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做...
刚开始学习Spark,首先看一下Spark集群启动之后都会产生哪些进程,方便查看集群是否启动正常。首先介绍下我的Spark集群是以Hadoop的HDFS作为分布式文件存储系统...
本章要点 单例类型可用于方法串接和带对象参数的方法。 类型投影对所有外部类型的对象都包含了其内部类的实例。 类型别名给类型指定一个短小的名称。 结构类型等效于“鸭子类型”。 ...
本章要点 类、特质、方法和函数都可以有类型参数 将类型参数放置在名称之后,以方括号括起来。 类型界定的语法为 T <: UpperBound、 T >: LowerBound...
本章要点 你可以为类、方法、字段、局部变量、参数、表达式、类型参数以及各种类型定义添加注解。 对于表达式和类型,注解跟在被注解的条目之后 注解的形式有: @Annotatio...
本章要点 match表达式是一个更好的switch,不会有意外掉入到下一个分支的问题。 如果没有模式能够匹配,会抛出MatchError。可以用case _ 模式来避免。 模...
本章要点 在Scala中函数是“头等公民”,就和数字一样; 你可以创建匿名函数,通常还会把它们交给其他函数; 函数参数可以给出需要稍后执行的行为; 许多集合方法都接受函数参数...
本章要点 所有集合都扩展自Iterable特质 集合有三大类:序列、集、映射 对于几乎所有集合类,Scala都同时提供了可变的和不可变的版本 Scala列表要么是空的,要么拥...