本文主要对Flink和Spark集群的standalone模式及on yarn模式进行分析对比。Flink与Spark的应用调度和执行的核心区别是Flink不同的job在执行...
1.特征提取 : 计数向量器(Countvectorizer) 词频-逆向文件频率(TF-IDF) 词转向量(Word2Vec) 2.特征转换 : 连续型数据转换成...
kafka总结:消息队列,kafka架构,组件作用,为什么比磁盘快,怎么保证数据不丢失,如何手动设置offset,如何保证kafka消费顺序,kafka事务什么,搭建kafk...
对于下面一段SQL 在上一部分,我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步: 用户提交SQL文本 解析器将SQL文本解析成逻...