前言 之前知道checkpoint是在job执行后完成的,一直没理解原理。后来用spark streaming后更迷惑了,众所周知有些时候需要保存每一条数据的状态,或者我需要...
前言 之前知道checkpoint是在job执行后完成的,一直没理解原理。后来用spark streaming后更迷惑了,众所周知有些时候需要保存每一条数据的状态,或者我需要...
待续
假设你已经了解job是如何被划分及提交的,若不了解请前往spark streaming 流程详解 当前位置是JobGenerator类的generateJobs的方法,我们重...
更多关注spark streaming源码分析之流程详解 DStreamGraph的作用是什么呢? DStreamGraph通过持有所有的inputstream和output...
jobGenerator做了哪些事情呢? 持有一个定时器实例 这个定时器会依据batchDuration提交GenerateJobs消息,也就是说每隔一个batch生成一组j...
我们关注的问题是数据是怎么被接收的?又是怎么存储的? 数据是被executor上的线程receiver接收的,接收之后交由executor上的线程ReceiverSuperv...
1、shufflemanager的实现类:sortshufflemanager Spark 0.8及以前 Hash Based Shuffle 在Shuffle Write过...
checkpoint: checkpoint都放啥子? Metadata checkpointing : 保存流计算的定义信息到容错存储系统如 HDFS 中。这用来恢复应用程...
简单的说,类(class)与类型(type)是两个不一样的概念(在java里因为早期一直使用class表达type,并且现在也延续这样的习惯);类型(type)比类(clas...
伴生对象 当单例对象与某个类共享同一个名称时,它就被称为是这个类的伴生对象 scala类里面没有静态方法和静态字段,可通过伴生对象实现 伴生对象和伴生类可以互相访问彼此的私有...
模式匹配 要理解模式匹配(pattern-matching),先把这两个单词拆开,先理解什么是模式(pattern),这里所的模式并不是设计模式里的模式,而是数据结构上的,这...
可变和不可变(Scala默认不可变集合类) val和var mutable和immutable 补充string是容器类中的一个immutable实现,所以字符串是不可变的集...
https://upload-images.jianshu.io/upload_images/1611719-320e9da035bb597d.png?imageMogr2/...
scala的构造函数分为主构造函数和辅助构造函数 【辅助构造函数】比较容易理解,它们同C++和Java的构造函数十分类似,只有两处不同: 1、辅助构造函数的名称为this,这...
隐式转换 什么是隐式转换 通过隐式转换,程序员可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来,这种特性可以极大的减少代码量,忽略那些...
我们有两种编程方式:命令式和声明式 命令式编程:命令“机器”如何去做事情(how),这样不管你想要的是什么(what),它都会按照你的命令实现。 声明式编程:告诉“机器”你想...
梳理需要哪些数据 评估可用性 (获取难度、准确率、覆盖率) 特征清洗 清洗异常样本 采样,正负样本均衡 采样,样本权重 预处理 单个特征 归一化 离散化 dummy codi...