hive如何调整map和reduce的数量

hive的map数量和reduce数量控制

参考文档:

map数量控制

map数量由以下几个因素确定

  • 输入文件的总个数
  • 输入文件的大小
  • 集群设置的文件块大小(默认128M,可在hive shell中通过set dfs.block.size查看,单位byte)

举例

文件不足128M则当做一个块,大于128M则拆分

  1. input目录下有七个文件,大小均为64M,则共7个map
  2. input目录下有10M,10M,129M三个文件,则共4个map,其中129M拆分为128M+1M两个文件
  3. input目录下有10M,10M,257M三个文件,则共5个map,其中129M拆分为128M+128M+1M三个文件

map数量应该控制在多少

map数量不是越多越好

如果有过多的小文件(大小远不够128M),则每个小文件也会当做一个块,甚至计算时间没有map任务的启动和初始化时间,则会造成资源的浪费。

解决方案:合并小文件,减少map数,可通过设置如下参数解决:

  1. map输入时合并小文件
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;  #执行Map前进行小文件合并
set mapred.max.split.size=128000000;  #每个Map最大输入大小,单位为KB
set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小,单位为KB
set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小,单位为KB
  1. map输出时合并小文件
set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
set hive.merge.sparkfiles = true #在hive on spark任务后开启合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge

小文件合并待验证

保证map处理的所有文件块都接近128M,效率也不一定高

如果文件中只有一两个字段,则有过多条数据,此时在一个map中会执行的很慢。当任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率

解决方案为:计算每个文件块合适大小maxSize,然后设置以下参数来将文件切分为,文件大小为maxSize的小文件

set mapreduce.input.fileinputformat.split.maxsize=maxSize;

问题:怎样才算复杂的任务逻辑?map阶段可以做哪些复杂的业务逻辑?进而如何具体操作,确定块的大小?(是通过试验摸索吗)

同时存在大文件切分和小文件合并是必要的吗?

答:在实际处理数据的时候存在多种多样的情况,根据实际情况控制map数量需要遵从两个原则:

  1. 大量数据处理需要合适的map数量
  2. 单个map任务处理需要合适的数据量。

只有把握好这两点才能最大效率的处理数据(类似生活中,一件工作安排给多个人会快一些,但是安排过多的人并不会让任务更快的完成,相反给这么多人安排工作是一件非常费力的事情)。

reduce数量控制

reduce个数的设定极大影响任务的执行效率

reduce数量如何计算

不指定reduce个数的情况下,hive会基于以下两个参数计算reduce的个数

  1. hive.exec.reducers.bytes.per.reducer,如果要处理的数据大小不大于这个值,则只有1个reduce,否则会有:数据量 / hive.exec.reducers.bytes.per.reducer个reduce。注意这个数据量是map之前的数据文件大小,所以和map输出的数据量并不一致,只是一种估算。
  2. hive.exec.reducers.max,总的reduce数量不会超过这个值。

具体到reduce数据推算的细节请阅读下面文章
《hive中reducetask数量是怎么推算的》。文章里面有代码讲解。以下是节选的一些内容:

hive.exec.reducers.bytes.per.reducer

此参数从Hive 0.2.0开始引入。在Hive 0.14.0版本之前默认值是1G(1,000,000,000);而从Hive 0.14.0开始,默认值变成了256M(256,000,000),可以参见HIVE-7158和HIVE-7917。这个参数的含义是每个Reduce处理的字节数。比如输入文件的大小是1GB,那么会启动4个Reduce来处理数据。

hive.exec.reducers.max

此参数从Hive 0.2.0开始引入。在Hive 0.14.0版本之前默认值是999;而从Hive 0.14.0开始,默认值变成了1009;可以参见HIVE-7158和HIVE-7917。这个参数的含义是最多启动的Reduce个数。比如input size/hive.exec.reducers.bytes.per.reducer>hive.exec.reducers.max,那么Hive启动的Reduce个数为hive.exec.reducers.max;反之为input size/hive.exec.reducers.bytes.per.reducer。这个参数只有在mapred.reduce.tasks/mapreduce.job.reduces设置为负数的时候才有效。

mapred.reduce.tasks/mapreduce.job.reduces

此参数从Hive 0.1.0开始引入。默认值是-1。此参数的含义是Reduce的个数,典型的情况是设置成接近可用节点的质数。如果mapred.job.tracker的值是local此参数将会被忽略。在Hadoop中此参数的默认值是1;而在Hive中默认值是-1。通过将此参数设置为-1,Hive将自动计算出应该启动多少个Reduce。

如何调整reduce的数量

  1. 设置hive.exec.reducers.bytes.per.reducer的大小。
  2. 在hadoop的mapred-default.xml中设置reduce的个数或通过hive shell设置set mapreduce.job.reduces=reduceNum;来硬性规定reduce的个数。一般set mapreduce.job.reduces=-1,这样生效的是上面1里面的参数hive.exec.reducers.bytes.per.reducer。如果set mapreduce.job.reduces某一个具体值,那就会固定死这个值了。

reduce数量设置多少合适?

reduce个数不是越多越好

  1. 过多的启动和初始化reduce也会消耗时间和资源
  2. 有多少个reduce就会有多少个输出文件,如果生成了很多小文件,如果这些小文件作为下一个任务的输入,则也会出现效率问题

为何有时候设置的reduce数量不起作用?一直是1个reduce?

只有一个reduce的情况,有时候会出现不过多大数据量和怎么硬性规定都只有一个reduce,共有三种情况会导致这种结果:这三种情况都是全局的,不得不使用一个reduce来完成。

  1. 没有使用group by这类汇总
  2. 使用了order by
  3. 有笛卡尔积

关于这三种情况下面这篇文章更详细一点:
https://blog.csdn.net/javastart/article/details/91381168

reduce设置原则

在设置reduce个数的时候也需要考虑这两个原则:

  1. 使大数据量利用合适的reduce数;
  2. 使单个reduce任务处理合适的数据量。

听上去好像没说什么

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335