MapReduce

Week 8 MapReduce

MapReduce

思想

分而治之

把一个复杂的任务划分为若干个简单的任务分别来做

原因

在现实情况下，我们要分析的数据数据量会相当大，这样一台计算机就不足以做这种数据的处理，原因有二：

内存(memory) 不足
算力(CPU)不够

对于大规模的数据处理任务，需要许多计算机/超算同时做一件任务（并行计算）

组成

image

数据

分析需要的海量数据，随机地存储于这些计算机上。

不需要/不现实：统一地把数据一起存到一个超大的硬盘上。

数据直接分散在这些计算机上，他们不仅充当数据的处理器，也是充当数据存储的硬盘。

分工

Master，Master是负责调度的，相当于工地的工头。
Worker，相当于干活儿的工人。
- Woker进一步分为两种
  - Mapper 执行处理数据函数
  - Reducer 汇总数据，交付输出

Master将M分成许多小份，然后每一份分给一个Mapper来做，Mapper干完活儿（执行完函数），将自己那一份儿活儿的结果传给Reducer。Reducer之后统计汇总各个Mapper传过来的结果，得到最后的任务的答案。

假设原始任务的Input个数为M,output个数为N。Mapper的个数为P，Reducer的个数为R。

每个output有一个编号，假设为o1,o2,o3…oN。

每个Mapper要做M/P个input的处理任务

当一个Mapper处理完自己那一份儿input之后，每个input i被处理后转化为一个中间结果m。

每个中间结果m很自然地会若干output (如：m1对应o1,o3,o5) 会有贡献。

每个Reducer要做N/R个output的汇总工作。

每个Reducer负责一个或多个o的汇总处理。

假如某个Reducer负责o1,o2,o3,那么凡是对应到o1,o2,o3的被处理过的m都会传给这个Reducer做汇总处理。

过程

以 word count 为例

MapReduce 有六个步骤：

输入 input

Hello Java
Hello C
Hello Java
Hello C++

拆分 split ，将上述文档中每一行的内容转换为key-value对
```
0 - Hello Java
1 - Hello C
2 – Hello Java
3 - Hello C++
```

映射 map，将拆分之后的内容转换成新的key-value对

#mapper0
(Hello , 1)
(Java , 1)

#mapper1
(Hello , 1)
(C , 1)

#mapper2
(Hello , 1)
(Java , 1)

#mapper3
(Hello , 1)
(C++ , 1)

派发 shuffle，将key相同的放到一起

这一步需要移动数据，原来的数据可能在不同的datanode上，这一步过后，相同key的数据，会被移动到同一台机器上。最终，它会返回一个list包含各种k-value对。
```
{Hello: 1,1,1,1}
{Java: 1,1}
{C: 1}
{C++: 1}
```
缩减 reduce，把同一个key的结果加在一起
```
(Hello , 4)
(Java , 2)
(C , 1)
(C++,1)
```
输出 output，输出缩减之后的所有结果

模拟 MapReduce 实现过程（以词频分析为例）

input / spilt

输入需要处理的文本，将其分割成若干份，交给不同的 Mapper 处理

input_str = "Hello!\nThis is a sample string.\nIt is very simple.\nGoodbye!"

# Split the string into lines and store in a list
lines_of_text = input_str.split("\n")

print(lines_of_text)

str.split(sep=None, maxsplit=-1)

分割字符串 str.split
- sep : 分隔符
- maxsplit : 分割次数，如果是 -1 则尽可能地分割（贪婪）

Map

每个 Mapper 对分到的文本块（chunk）进行操作

# We will store the output of map_fn in here
word_count_lists = []

# For every line of text
for line in lines_of_text:
    # Apply the map function (split and count words)
    # Save the result as a list in our list
    word_count_lists.append(list(map_fn(line)))

# Show the result of mapping
print(word_count_lists)

import itertools

# word_count_lists is a list of lists
# Flatten the list of words to make it simpler by chaining lists together
word_count_list_flat = list(itertools.chain.from_iterable(word_count_lists))

print(word_count_list_flat)

生成一个 ==统计各行单词个数==的 list
对于 split 操作过生成的字符串 list 的每个元素，用 map_fn 统计每一个行单词的个数，并储存在 list 里
导入 itertools 库，这个库都是基于迭代的基本操作
用itertools.chain.from_iterable() 函数将 list 里的各个 list 的元素拿出来组成一个新的 list

itertools.chain.from_iterable(iterable)

轻松快速的辗平一个列表，相当于

def from_iterable(iterables):
    # chain.from_iterable(['ABC', 'DEF']) --> A B C D E F
    for it in iterables:
        for element in it:
            yield element

例子

a_list = [[1, 2], [3, 4], [5, 6]]
print(list(itertools.chain.from_iterable(a_list)))
# Output: [1, 2, 3, 4, 5, 6]

map_fn

mapper 做的操作，tut里做的是统计每个词在每句中的词频，可以根据不同的需求更改功能。

import re
WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    # Use the regex to find all words in each chunk
    for word in WORD_RE.findall(chunk):
        # Emit a result using the word as the key and number 
        yield (word.lower(), 1)

用正则表达式找到每一块文本中的每个单词，返回一个生成器。生成器（generator）生成由单词和其出现次数的 list。

正则表达式 ==[\w']+==

[\w'] 指字母和单引号'

匹配所有由一个或多个 [\w'] 组成的单词

用途

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。

正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码

比如你可以编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。

类似于Control + F 但是功能强大的多
更主要的原因是，程序执行比嵌套条件判断效率高的多。

入门

Hi

有两个字符，第一个是 h，第二个是 i

通常正则表达式会有选项选择是否忽略大小写,默认是区分的。

由于许多单词中也包含 hi, 例如 history , 如果我们只需要找 hi 这个单词的话，要用\bhi\b
\bhi\b

\b 标识单词的的开头和结尾

注意这里识别不出 hihi , 因为 hihi 是另一个单词
\bhi\b.*\blucy\b

hi后面不远处有一个 lucy

. 匹配除换行符以外的任意字符

* *前边的内容可以连续重复使用任意次以使整个表达式得到匹配

常用的元字符（metacharacter）

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

0\d\d-\d\d\d\d\d\d\d\d

以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字

但是这样写如果重复的符号个数很麻烦，所以引入限定符{8}

0\d{2}-\d{8}

即先是0然后 \d必须重复2次（2个数字），接着是 - ,最后是8个数字

限定符

代码/语法说明

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次
字符集合

\(?0\d{2}[) -]?\d{8}

匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

如果想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u), 只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)

也可以指定一个字符范围

像[0123456789]代表的含意与\d就是完全一致的：一位数字；

[a-z0-9A-Z] 等同于\w

例子

一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：^\d{5,12}$

函数
- 在使用正则表达式之前需要将 re 库文件导入程序
```
import re
```
- re.compile( pattern )
  
  将正则关系式转化成一个正则关系对象，供之后使用 re.match() 和 re.search() 等函数
  
  r 声明后面的字符串是普通字符串
  
  u 声明后面的字符串以 Unicode 编码
  
  b 声明后面的字符串用 byte 类型（01）
- re.fandall(pattern, string )
  
  返回所有符合正则表达式的词组，如果不止一个就返回包含他们的 list

生成器（generator）

我们在用 for 循环时，往往是通过遍历 List 的各个元素实现的：

for i in range(1000):

虽然这样也能完成任务，

但是该函数在运行中占用的内存会随着参数 max 的增大而增大，如果要控制内存占用，最好不要用 List。

用 ==流水线== 的方式解决这个问题

打个比方：流水线自动给料机

image

不用找一个特别大的容器装着原料，原料全部生产后再交给下一个机器；而是来一件原料机器就加工一件。

for 循环不用 list 可以通过一个函数每次生成list里的一个元素，再用另一个函数进行操作

# 斐波那契数列
  

def fab(max): 
  n, a, b = 0, 0, 1 
  while n < max: 
      yield b 
        # print b 
      a, b = b, a + b 
      n = n + 1 
for n in fab(5): 
  print (n)

>>>
1 
1 
2 
3 
5

yield 的作用就是把一个函数变成一个 generator，带有 yield 的函数不再是一个普通函数。
Python 解释器会将其视为一个 generator，在 for 循环执行时，每次循环都会执行 fab 函数内部的代码，执行到 yield b 时，fab 函数就返回一个迭代值。
下次迭代时，代码从 yield b 的下一条语句继续执行，而函数的本地变量看起来和上次中断执行前是完全一样的，于是函数继续执行，直到再次遇到 yield。

map_fn 的解释

import re
WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    # Use the regex to find all words in each chunk
    for word in WORD_RE.findall(chunk):
        # Emit a result using the word as the key and number 
        yield (word.lower(), 1)

导入正则表达式库
正则表达式匹配所有包括一个或多个由字母和单引号组成的单词的词组
定义 map_fn 函数（生成器），函数的参数为导入的字符串块
findall函数返回所有单词组成的 list
对于每一个元素，生成一个单词全小写和数字1 的 list

Shuffle and Sort

派发 shuffle，将key相同的放到一起，返回一个list包含各种key-value对

# SHUFFLE/SORT STAGE
from collections import defaultdict

# Create a dictionary where the default value is a list
word_tuple_dict = defaultdict(list)

for kv_pair in word_count_list_flat:
    # For each unique key append the (word, count) tuple to that keys list
    word_tuple_dict[kv_pair[0]].append(kv_pair)

# Print it in a nice format:
for k, v in word_tuple_dict.items():
    print(str(k) +": " + str(v))

导入 collections 库里的 defaultdict 类
将list 作为defaultdict类的初始化函数参数，即每个 defaultdict 的成员都是 list，并别每个成员都有 default_value
对于word_count_list_flat 的每一个元素（一个 key - number 的 list），将第零个元素作为字典 dict 的 key值，第一个元素加入 value 的 list 中。

defaultdict 类

这个类和传统的 dict 类基本一致，只是改写了个别函数，可以看做是 dict 类的子类

最重要的区别，也是为什么要用这个类的原因：

defaultdict 类的初始化函数接受一个类型作为参数，当所访问的键不存在的时候，可以实例化一个值作为默认值：

# 初始化函数接受一个类型作为参数
>>> from collections import defaultdict
>>> dd = defaultdict(list)
>>> dd
defaultdict(<type 'list'>, {})

# 当所访问的键不存在的时候，可以实例化一个值作为默认值：

>>> dd['foo']
[]
>>> dd
defaultdict(<type 'list'>, {'foo': []})
>>> dd['bar'].append('quux')
>>> dd
defaultdict(<type 'list'>, {'foo': [], 'bar': ['quux']})

这有什么意义呢？

举个例子：

strings = ('puppy', 'kitten', 'puppy', 'puppy',
           'weasel', 'puppy', 'kitten', 'puppy')
counts = {}

for kw in strings:
    counts[kw] += 1

该例子统计strings中某个单词出现的次数，并在counts字典中作记录。单词每出现一次，在counts相对应的键所存的值数字加1。但是事实上，运行这段代码会抛出KeyError异常，出现的时机是每个单词第一次统计的时候，因为Python的dict中不存在默认值的说法，

>>> counts = dict()
>>> counts
{}
>>> counts['puppy'] += 1
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: 'puppy'

为了在执行第9行代码（将 list 的第零个元素作为新的字典 dict 的 key值，第一个元素加入 value 的 list 中）时

不会因为 dict 不存在该 key 值而报错。

因此在对数据进行统计操作时，用 defaultdict 类取代原来的 dict

Reduce

把同一个key的结果加在一起

# REDUCE STAGE
results = []

for k, v in word_tuple_dict.items():
    # Get the counts from the list of k/v pairs
    vals_list = [t[1] for t in v]
    
    # Apply the reduce_fn to the word and counts pair
    # reduce_fn will yield a (key, value) tuple
    # inside a generator object which we convert to a list
    results.append(list(reduce_fn(k, vals_list)))
    
print(results)

新建一个结果 list 用来放 reduce 的结果
列表推导式（ list comprehensions ），生成一个包含==该词在各句中出现次数==的 list，注意==‘is==’ 的值
将该词和上面的 list 传入 reduce_fn 函数中，得到该词以及总共出现次数的 list ,并添加到结果 list

为了好理解，打印过程中各个变量的值：

# REDUCE STAGE
results = []

print('word_tuple_dict.items\n', word_tuple_dict.items(),'\n')

for k, v in word_tuple_dict.items():

    vals_list = [t[1] for t in v]
    
    print('vals_list: ',vals_list)
    print("List of results of reduce_fn: ", list(reduce_fn(k, vals_list)))
    
    results.append(list(reduce_fn(k, vals_list)))
    
    print('results: \n', results,'\n')
    
print('final results: \n',results)

列表推导式（ list comprehensions）

推导式

推导式（又称解析式）是Python的一种独有特性。

推导式是可以从一个数据序列构建另一个新的数据序列的结构体。

共有：列表推导式、字典推导式和集合推导式

列表推导式

列表推导式（又称列表解析式）提供了一种简明扼要的方法来创建列表。

结构

推导式被中括号括在里面，代表推导的是个 list
新建一个变量名，这个变量名参与之后的推导式，同时也是作为结果列在 list 的元素
建立一个for语句，然后是零个或多个for或者if语句。
在结果列表中加入新建的变量以if和for语句为上下文的表达式运行完成之后产生的元素
- 那个表达式可以是任意的，可以在列表中放入任意类型的对象。

例子

multiples = [i for i in range(30) if i % 3 is 0]
print(multiples)
# Output: [0, 3, 6, 9, 12, 15, 18, 21, 24, 27]

用处

快速生成 List，尤其是当你需要用 For 循环来生成 list 时。使代码更加简洁。

#实现方式 1 
squared = []
for x in range(10):
    squared.append(x**2)
    
#实现方式2
squared = [x**2 for x in range(10)]

Reduce_fn

reducer做的工作，在 tut 里是将 mapper 统计的各句的词频进行求和。可以根据不同的需求更改功能

def reduce_fn(key, values):
    yield (key, sum(values))

定义一个生成器，参数是每一个单词，以及单词在各句中的词频 list

output

输出缩减之后的所有结果

# Flatten the results to make them more readable
results_flat = list(itertools.chain.from_iterable(results))

print(results_flat)

再次调用 itertools.chain.from_iterable函数将 results里的元素提了出来，并打印

安装`mockr` 库

Tutorial 里让大家使用的是 mockr 模块使用 MapReduce 架构。

打开终端

Mac 环境

control+space 打开 Spotlight, 输入 term(终端)，并打开

Windows 环境：

Win + R 打开运行，输入cmd 打开命令行工具
用 PiP 工具安装 mockr 模块
```
pip install mockr
```

使用 mockr 库实现

处理字符串（字频统计）

import re
from mockr import run_stream_job

WORD_RE = re.compile(r"[\w']+")

def map_fn(chunk):
    for word in WORD_RE.findall(chunk):
        yield (word.lower(), 1)

def reduce_fn(key, values):
    yield (key, sum(values))

input_str = "Hello!\nThis is a sample string.\nIt is very simple.\nGoodbye!"

results = run_stream_job(input_str, map_fn, reduce_fn)

print(results)

mockr.run_stream_job(input_data, map_fn, reduce_fn)

将输入的字符串分成多个 Chunk, 分别进行 map 操作和 reduce 操作

input_data 将要处理的字符串
map_fn 处理字符串Chunk，返回（key , value）的 list
reduce_fn 处理 mapper产生的（key,value ）返回（key, result） list

除了Tutorial做的MapReduce处理字符串的操作外还有

处理文本
处理表格（pandas）

可以看官网的例子

例子

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

MapReduce

Week 8 MapReduce

MapReduce

思想

分而治之

原因

组成

数据

分工

过程

模拟 MapReduce 实现过程（ 以 词频 分析为例 ）

input / spilt

Map

itertools.chain.from_iterable(iterable)

map_fn

正则表达式 ==[\w']+==

用途

入门

生成器（generator）

map_fn 的解释

Shuffle and Sort

defaultdict 类

Reduce

列表推导式（ list comprehensions）

推导式

列表推导式

结构

例子

用处

Reduce_fn

output

安装mockr 库

使用 mockr 库实现

处理字符串（字频统计）

mockr.run_stream_job(input_data, map_fn, reduce_fn)

推荐阅读更多精彩内容

模拟 MapReduce 实现过程（以词频分析为例）

安装`mockr` 库