MapReduce基础 - 文集

MapReduce基础

10篇文章 · 5190字 · 1人关注

MapReduce 基础（十）分组
假设有一组数据，我们要统计订单号金额最大的一笔给区分出来应该怎么做？这里是一个综合案例，我们既要将数据转换，也要将数据给分组。首先我们需要将数...

1130 0 0
MapReduce 基础（九）自定义OutputFormat
有时候我们需要将输出的文件分别对应的输出到不同的文件夹中，通常TextOutputFormat类不能给我们实现这个功能，所以我们需要用自定义的O...

1504 0 0

MapReduce 基础（八）自定义InputFormat
无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义Inpu...

1292 0 1
MapReduce 基础（七）MapReduce加载分布式缓存文件列表
自定义一个mapper类需要实现如下步骤主类中相当于不需要reducer，直接在mapper中合并k2 v2即可。

1288 0 0
MapReduce 基础（六）MapReduce的运行机制
1. MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通...

3196 0 1
MapReduce 基础（五）规约
每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce ...

1297 0 0
MapReduce 基础（四）排序和序列化
序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流...

1612 0 0

MapReduce 基础（三）分区
概念在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理例如: 为了数据的统计,...

1346 0 0
MapReduce 基础（二）编程规范
MapReduce开发阶段 MapReduce 的开发一共有八个步骤, 其中 Map 阶段分为 2 个步骤，Shuwle 阶段 4 个步骤，R...

2895 0 0