
本文介绍了如何使用自定义UDF来给key新增随机数前缀,并使用双重Group来解决数据倾斜。 主要内容: 1.自定义UDF 2.数据流程 3.S...
当SparkSQL里内置的函数无法满足我们业务需求时,我们可以通过自定义UDF来实现。 1、自定义ConcatLongStringUDF 这里自...
本文介绍如何使用Spark2中自定义累加器来实现数据的统计。 Spark2.x之后,之前的的accumulator被废除,用Accumulato...
本文记录了利用Scala和Java两种语言来实现先分组,然后取每个分组的TopN。 1.文本内容 班级名 空格 分数 2.scala实现分组To...
本文介绍了使用Spark连接Mysql的五种方式。 主要内容: 不指定查询条件 指定数据库字段的范围 根据任意字段进行分区 通过load获取,和...
本文介绍了使用Spark连接Hive的两种方式,spark-shell和IDEA远程连接。 1.spark-shell 1.1.拷贝配置文件 拷...
本文使用Spark统计某个用户使用设备的天数最多的设备ID,来源于朋友的面试题。 1.需求 日志格式time:时间(yyyy-MM-dd HH:...
本文主要记录利用爬虫爬取豆瓣对电影《西虹市首富》的短评,使用word分词器分词,并使用Spark计算出磁盘取Top20,使用echats展示。 ...
本文主要记录使用SparkStreaming从Kafka里读取数据,并使用Redis保存Offset,并监听Redis中的某个Key是否存在来停...
文集作者