broadcast 官方文档描述: 函数原型: 广播变量允许程序员将一个只读的变量缓存在每台机器上,而不用在任务之间传递变量。广播变量可被用于有...
saveAsTextFile 官方文档描述: 函数原型: saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。 源码分析:...
treeAggregate 官方文档描述: 函数原型: **可理解为更复杂的多阶aggregate。** 源码分析: **从源码中可以看出,tr...
sortBy 官方文档描述: 函数原型: **sortBy根据给定的f函数将RDD中的元素进行排序。** 源码分析: **从源码中可以看出,so...
foreach 官方文档描述: 函数原型: **foreach用于遍历RDD,将函数f应用于每一个元素。** 源码分析: 实例: foreach...
fold 官方文档描述: 函数原型: **fold是aggregate的简化,将aggregate中的seqOp和combOp使用同一个函数op...
reduce 官方文档描述: 函数原型: 根据映射函数f,对RDD中的元素进行二元计算(满足交换律和结合律),返回计算结果。 源码分析: 从源码...
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的A...
zipWithIndex 官方文档描述: 函数原型: 该函数将RDD中的元素和这个元素在RDD中的indices组合起来,形成键/值对的RDD。...