前言 Sunday night,继续超短文模式(希望下周就可以不这么划水了hhhh Kafka是我们日常的流处理任务中最为常用的数据源之一。随着...
前言 TF-IDF是在文本挖掘和信息检索领域最常用(也是最简单)的加权统计方法,笔者曾经在大学选修过NLP和信息检索方面的课程,其中都讲到了TF...
前言 我们都知道,Spark SQL上主要有三种实现join的策略,分别是Broadcast hash join、Shuffle hash jo...
年关临近,各种杂事很多,开启短文模式,春节假期过后再恢复正常。 在Spark Streaming程序中,我们经常需要使用有状态的流来统计一些累积...
前言 我司算是Greenplum大户,虽然笔者不负责数仓,但是也少不得和它打交道。除了写pgSQL查询之外,Spark SQL能够使可用性更加丰...
前言 在实时计算作业中,往往需要动态改变一些配置,举几个栗子: 实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析; 实时NLP服...
前言 近些年来,大数据领域“SQL化开发”的理念蔚然成风,这是因为SQL是一种通用、学习成本低的语言,并且还有较强的数据描述能力。不少大数据框架...
VisualVM是我们平时最常用的Java应用监控和性能分析工具,功能很丰富。我们有时会利用它来监控Spark作业,主要是Driver和Exec...
今天仍然处于感冒状态,打开电脑随便写一篇,然后滚回床上休息。 我们都知道,在HDFS中不宜存储大量的小文件。所谓小文件,就是大小远小于dfs.b...
文集作者