Spark - 文集

Spark

20篇文章 · 22881字 · 9人关注

简析Spark Streaming/Flink的Kafka动态感知
前言 Sunday night，继续超短文模式（希望下周就可以不这么划水了hhhh Kafka是我们日常的流处理任务中最为常用的数据源之一。随着...

1.4 2303 11 11
TF-IDF算法与其在Spark MLlib中的实现
前言 TF-IDF是在文本挖掘和信息检索领域最常用（也是最简单）的加权统计方法，笔者曾经在大学选修过NLP和信息检索方面的课程，其中都讲到了TF...

1.4 1019 2 9
Spark SQL是如何选择join策略的？
前言我们都知道，Spark SQL上主要有三种实现join的策略，分别是Broadcast hash join、Shuffle hash jo...

1.0 1910 7 9
如何周期性清除Spark Streaming流的状态
年关临近，各种杂事很多，开启短文模式，春节假期过后再恢复正常。在Spark Streaming程序中，我们经常需要使用有状态的流来统计一些累积...

1.9 641 10 10
Greenplum-Spark连接器（GSC）简介
前言我司算是Greenplum大户，虽然笔者不负责数仓，但是也少不得和它打交道。除了写pgSQL查询之外，Spark SQL能够使可用性更加丰...

3.2 5198 5 7
Spark Streaming/Flink广播实现作业配置动态更新
前言在实时计算作业中，往往需要动态改变一些配置，举几个栗子：实时日志ETL服务，需要在日志的格式、字段发生变化时保证正常解析；实时NLP服...

4.3 3759 6 20
浅谈Spark SQL语句解析与基于规则优化（RBO）
前言近些年来，大数据领域“SQL化开发”的理念蔚然成风，这是因为SQL是一种通用、学习成本低的语言，并且还有较强的数据描述能力。不少大数据框架...

1.5 1892 1 10
利用VisualVM监控Spark Driver/Executor
VisualVM是我们平时最常用的Java应用监控和性能分析工具，功能很丰富。我们有时会利用它来监控Spark作业，主要是Driver和Exec...

1.6 1762 4 7
解决Spark Streaming写入HDFS的小文件问题
今天仍然处于感冒状态，打开电脑随便写一篇，然后滚回床上休息。我们都知道，在HDFS中不宜存储大量的小文件。所谓小文件，就是大小远小于dfs.b...

4.4 9520 12 17