240 发简信
IP属地:广西
  • 120
    Flink VS Spark 部署模式对比

    本文主要对Flink和Spark集群的standalone模式及on yarn模式进行分析对比。Flink与Spark的应用调度和执行的核心区别是Flink不同的job在执行...

  • 120
    特征工程

    1.特征提取 : 计数向量器(Countvectorizer) 词频-逆向文件频率(TF-IDF) 词转向量(Word2Vec) 2.特征转换 : 连续型数据转换成...

  • 120
    kafka 知识总结,以及问题总结

    kafka总结:消息队列,kafka架构,组件作用,为什么比磁盘快,怎么保证数据不丢失,如何手动设置offset,如何保证kafka消费顺序,kafka事务什么,搭建kafk...

  • 120
    由一条SQL分析SparkSQL执行过程(二)

    对于下面一段SQL 在上一部分,我们分析了SparkSQL的建议执行流程图。我们知道一条SQL在Spark执行要经历以下几步: 用户提交SQL文本 解析器将SQL文本解析成逻...