Spark - 文集

Spark

15篇文章 · 3181字 · 1人关注

SparkSQL之双重Group解决数据倾斜
本文介绍了如何使用自定义UDF来给key新增随机数前缀，并使用双重Group来解决数据倾斜。主要内容： 1.自定义UDF 2.数据流程 3.S...

0.1 2965 0 1
SparkSQL之自定义UDF
当SparkSQL里内置的函数无法满足我们业务需求时，我们可以通过自定义UDF来实现。 1、自定义ConcatLongStringUDF 这里自...

1089 0 0

Spark之自定义AccumulatorV2
本文介绍如何使用Spark2中自定义累加器来实现数据的统计。 Spark2.x之后，之前的的accumulator被废除，用Accumulato...

0.1 1920 0 1
Spark分组取TopN
本文记录了利用Scala和Java两种语言来实现先分组，然后取每个分组的TopN。 1.文本内容班级名空格分数 2.scala实现分组To...

2326 0 1
Spark之读取MySQL数据的五种方式
本文介绍了使用Spark连接Mysql的五种方式。主要内容：不指定查询条件指定数据库字段的范围根据任意字段进行分区通过load获取，和...

0.1 13413 0 4
Spark之HiveSupport连接（spark-shell和IDEA）
本文介绍了使用Spark连接Hive的两种方式，spark-shell和IDEA远程连接。 1.spark-shell 1.1.拷贝配置文件拷...

0.1 8948 5 1
Spark统计某用户使用天数最多的设备
本文使用Spark统计某个用户使用设备的天数最多的设备ID，来源于朋友的面试题。 1.需求日志格式time：时间（yyyy-MM-dd HH:...

536 0 1

Spark计算《西虹市首富》短评词云
本文主要记录利用爬虫爬取豆瓣对电影《西虹市首富》的短评，使用word分词器分词，并使用Spark计算出磁盘取Top20，使用echats展示。 ...

1670 0 1
SparkStreaming之写数据到Kafka
本文主要记录使用SparkStreaming从Kafka里读取数据，并使用Redis保存Offset，并监听Redis中的某个Key是否存在来停...

0.3 10532 3 6