Spark 1.3及其前的版本 你的一个 spark streaming application 已经好好运行了一段时间了,这个时候你因为某种原因要停止它。你应该怎么做?直接...
本文原始地址 分类 每个人每天都会进行很多次的分类操作。比如,当你看到一个陌生人,你的大脑中的分类器就会根据TA的体貌特征、衣着举止,判断出TA是男是女,是穷是富等等。这就是...
本文原始地址 剖析Spark工作的运行 我们来看下当我们运行一个Spark工作时,会发生什么。在最高级别上,有两个独立的实体:驱动(driver)和执行器(executors...
本文原始地址 剖析Spark工作的运行 我们来看下当我们运行一个Spark工作时,会发生什么。在最高级别上,有两个独立的实体:驱动(driver)和执行器(executors...
本文原始地址 Persistence 回到本章开头的例子,我们可以把“年度-气温”的中间数据集缓存在内存中: 调用cache()不会立刻把RDD缓存到内存中,只是对这个RDD...
目前,spark shuffle write有三种方法:hash shuffle、sort shuffle和tungsten-sort shuffle。从1.2版本开始默认为...
本文原始地址 Persistence 回到本章开头的例子,我们可以把“年度-气温”的中间数据集缓存在内存中: 调用cache()不会立刻把RDD缓存到内存中,只是对这个RDD...
高能预告,以下内容会消耗一定流量(约10M) 高能预告,以下内容会消耗一定流量(约10M) HERE WE GO
本文翻译自O'Reilly出版Tom White所著《Hadoop: The Definitive Guide》第4版第19章,向作者致敬。该书英文第4版已于2015年4月出...
本文原始地址 A Scala Standalone Application 在Spark shell中运行了一个小程序之后,你可能想要把它打包成自包含应用,这样就可以多次运行...
本文原始地址 Resilient Distributed Datasets RDD是每个spark程序的核心,本节我们来看看更多细节。 Creation 创建RDD有三种方式...
公元前222年,秦军攻下辽东,俘虏了燕王喜,燕国灭亡。 司马迁在《史记·燕召公世家第四》中说:“燕国迫近蛮貉等域外部族,疆土又和齐、晋等国交错着,艰难地生存在强国之间,最为弱...