Hive高级查询

查询操作
- group by、Order by 、Join 、distribute by 、Sort by 、cluster by 、Union all
底层的实现
- Mapreducer
几个简单的聚合操作
- count 计数
  - count(*) count(1) count(col)
- sum 求和
  - sum(可转成数字的值)返回bigint
  - sum(col) + cast(1 as bigint)//必须进行类型转换
- avg 求平均值
  - avg(可转成数字的值) 返回double
- distinct 不同值个数
  - count(distinct col)

Order by

按照某些字段排序
样例
- select col1,other...
- from table
- where condition
- oreder by col1,col2 [asc|desc]
注意
- order by 后面可以有多列进行排序，默认按字典排序
- order by 为全局排序
- order by 需要reduce操作，且只有一个reduce，与配置无

Group by

按照某些字段的值进行分组，有相同值放到一起
样例
- select col1[,col2],count(1),sel_expr(聚合操作)
- from table where condition
- group by col1[,col2]
- [having...]
注意
- select后面非聚合列必须出现在group by中
- 除了普通列就是一些聚合操作
- group by后面也可以跟表达式，比如substr(col)
特性
- 使用了reduce操作，受限于reduce数量，设置reduce参数mapred.reduce.tasks
- 输出文件个数与reduce数相同，文件大小与reduce处理的数据量有关
问题
- 网络负载过重
- 数据倾斜，优化参数hive.groupby.skewindata=true

Join

表连接
- 两个表m,n之间按照on条件连接，m中的一条记录和n中的一条记录组成一条新的记录
- join等值连接，只有某个值在m和n中同时存在时才输出
- left outer join左外连接，左边表中的值无论是否在b中存在时，都输出，右边表中的值只有在左边表中存在时才输出
- right outer join 和left outer join相反
- left semi join 类似exists
- mapjoin 在map端完成join操作，不需要用reduce，基于内存做join，属于优化操作
样例
- select m.col as col,m.col2 as col2,n.col3 as col3
- from(select col,col2 from test where...(map端执行))m (左表)
- [left outer|right outer|left semi] join
- n (右表)
- on m.col=n.col
- where condition (reduce端执行)
set hive.optimize.skewjoin=true;

Mapjoin

mapjoin(map side join)
- 在map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作
- 其中使用了分布式缓存技术
优缺点
- 不消耗集群的reduce资源（reduce相对紧缺）
- 减少了reduce操作，加快程序执行
- 降低网络负载
- 占用部分内存，所以加载到内存中的表不能过大，因为每个计算节点都会加载一次
- 生成较多的小文件
配置以下参数，是hive自动根据sql，选择使用common join或者map join
- set hive.auto.convert.join=true;
- hive.mapjoin.smalltable.filesize默认值是25mb
第二种方式，手动指定
- select /*+mapjoin(n) */ m.col,m.col2,n.col3 from m
- join n
- on m.col=n.col
简单总结一下，mapjoin的使用场景:
- 关联操作中有一张表非常小
- 不等值的链接操作

DIstribute by 和 Sort by

Distribute分散数据
- distribute by col
- 按照col列把数据分散到不同的reduce
Sort排序
- sort by col2
- 按照col列把数据排序
select col1,col2 from M
distribute by col1
sort by col1 asc,col2 desc;
两者结合出现，确保每个reduce的输出都是有序的
distribute by 与group by 的对比
- 都是按key值划分数据
- 都使用reduce操作
- 唯一不同，distribute by只是单纯的分散数据，而group by把相同key的数据聚集到一起，后续必须是聚合操作
order by与sort by
- order by是全局排序
- sort by只是确保每个reduce上面输出的数据有序，如果只有一个reduce时，和order by作用一样
应用场景
- map输出的文件大小不均
- reduce输出文件大小不均
- 小文件过多
- 文件超大

Cluster by

把有相同值得数据聚集到一起，并排序
效果
- cluster by col
- 等同于distribute by col order by col

Union all

多个表的数据合并成一个表，hive不支持union
样例
- select col
- form(
- select a as col from t1
- union all
- select b as col from t2
- )tmp
要求
- 字段名字一样
- 字段类型一样
- 字段个数一样
- 子表不能有别名
- 如果需要从合并之后的表中查询数据，那么合并的表必须要有别名

最后编辑于：2017.12.04 02:35:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

Hive高级查询

Hive高级查询

Order by

Group by

Join

Mapjoin

DIstribute by 和 Sort by

Cluster by

Union all

推荐阅读更多精彩内容