1.概念 PO(persistant object) 持久对象在 O/R 映射的时候出现的概念,如果没有 O/R 映射,没有这个概念存在了。通常...
1.概念 PO(persistant object) 持久对象在 O/R 映射的时候出现的概念,如果没有 O/R 映射,没有这个概念存在了。通常...
早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。 刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种...
1.前言 本文讲述如何使用IDEA远程调试spark,这里所说的调试spark包括: 调试spark应用程序,也就是使用spark算子编写的dr...
Avro总结(RPC/序列化) Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。 它的主要特点有:支持二进制序列化方式,可以便捷...
Avro([ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)...
最近在项目中遇到二次排序的需求,和平常开发spark的application一样,开始查看API,编码,调试,验证结果。由于之前对spark的A...
一、简介 Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同,Spark SQL的接口提供了更多关于数...
我们在初始化SparkConf时,或者提交Spark任务时,都会有master参数需要设置,如下: 但是这个master到底是何含义呢?文档说是...
spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》...
Spark treaming简介 Spark Streaming是Spark中的一个组件,具有高吞吐量,容错能力强的特点,基于Spark Cor...