Spark从入门到精通 - 文集

35篇文章 · 37588字 · 11人关注

Spark从入门到精通35：在eclipse中直接使用spark-submit提交Spark任务
通常在开发Spark任务的时候，都是先在本地主机的IDE中开发完Spark任务，然后上传到Spark集群，最后通过命令行提交并运行，这样很不方便...

784 0 1
Spark从入门到精通34：在Jupyter Notebook中使用pyspark
1.安装spark 2.安装anaconda 3.在Jupyter Notebook中使用pyspark PYSPARK_DRIVER_PYTH...

348 0 0

Spark从入门到精通33：编译Spark源码以支持Hive
Spark官网提供的原生的安装包不支持Hive，但是我们可以使用Spark官网提供的Spark源码包编译成支持Hive的安装包来使用。本节实验...

724 0 0
Spark从入门到精通32：SparkStreaming的窗口操作
SparkStreaming提供的窗口计算功能，允许在数据的滑动窗口上应用转换操作。本节就来介绍SparkStreaming的窗口操作的知识。 ...

697 0 0
Spark从入门到精通31：DStream对象详解
Spark Streaming就是将连续的数据流切分成离散的数据流，即DStream。本节就来介绍DStream的详细知识。 1.什么是DStr...

617 0 0
Spark从入门到精通30：StreamingContext对象详解
Spark StreamingContext对象（简写为ssc）是SparkStreaming的上下文对象，非常重要。本节就来介绍一下Strea...

1507 0 0
Spark从入门到精通29：SparkStreaming开发NetworkWordCount程序
本节介绍如何在IDEA上使用SparkStreaming开发一个NetworkWordCount程序。 1.下载Spark安装目录下的所有Jar...

289 0 0

Spark从入门到精通28：Spark Streaming简介
1.什么是Spark Streaming Spark Streaming是在Spark Core API的基础上，实现的可扩展、高吞吐、可容错的...

259 0 0
Spark从入门到精通27：Spark SQL之性能优化
1.将数据缓存到内存性能调优主要是将数据放入内存中，以加快处理数据的速度。通过spark.cacheTable(“tableName”)或者d...

630 0 0