Hadoop:使用Mrjob框架编写MapReduce - MacoLee - 博客园
http://www.cnblogs.com/MacoLee/p/5805656.html
Mrjob是一个编写MapReduce任务的开源Python框架,它实际上对Hadoop Streaming的命令行进行了封装,因此接粗不到Hadoop的数据流命令行,使我们可以更轻松、快速的编写MapReduce任务。
Mrjob具有如下特点:
代码简洁,map及reduce函数通过一个Python文件就可以搞定;
支持多步骤的MapReduce任务工作流;
支持多种运行方式,包括内嵌方式、本地环境、Hadoop、远程亚马逊;
支持亚马逊网络数据分析服务Elastic MapReduce(EMR);
调试方便,无需任何支持环境。