spark2.3 跑不過去的join 排查

上週跑spark job 遇到這樣一個語句

select cc_base_part1.*,cc_base_part1.nsf_cards_ratio * 1.00 / cc_rank_agg.nsf_on_entry as nsf_ratio_to_pop

| from cc_base_part1

| left join cc_rank_agg

| on trim(cc_base_part1.country) = trim(cc_rank_agg.cntry_code);

跑了很久都沒有通過，心想多半是遇到skew join 的問題. 首先來分析下這個 join. 左表（cc_base_part1 ) 是個大表，

右表是個小表（裏面的記錄不多, 記錄country 信息，大約10+個國家）。整個查詢是計算某些 country 的一些統計。預計中這是個broadcast join(小表放內存，大表和小表進行 join) 查看了執行計劃是個sort merge join（這就不奇怪爲什麼 job 會 hang )

EXPLAIN COST select

     | cc_base_part1.*,cc_base_part1.nsf_cards_ratio * 1.00 / cc_rank_agg.nsf_on_entry as nsf_ratio_to_pop

     | from cc_base_part1

     | left join cc_rank_agg

     | on trim(cc_base_part1.country) = trim(cc_rank_agg.cntry_code);

== Optimized Logical Plan ==

Project [cust_id#97, country#98, cc_id#99, bin_hmac#100, credit_card_created_date#101, card_usage#102, cc_category#103, cc_size#104, nsf_risk#105, nsf_cards_ratio#106, dt#107, CheckOverflow((promote_precision(cast(CheckOverflow((promote_precision(nsf_cards_ratio#106) * 1.00), DecimalType(22,4)) as decimal(38,16))) / promote_precision(nsf_on_entry#111)), DecimalType(38,6)) AS nsf_ratio_to_pop#94], Statistics(sizeInBytes=4.27E+37 B, hints=none)

+- Join LeftOuter, (trim(country#98, None) = trim(cntry_code#108, None)), Statistics(sizeInBytes=4.68E+37 B, hints=none)

:- HiveTableRelation `fpv3653`.`cc_base_part1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cust_id#97, country#98, cc_id#99, bin_hmac#100, credit_card_created_date#101, card_usage#102, cc_category#103, cc_size#104, nsf_risk#105, nsf_cards_ratio#106], [dt#107], Statistics(sizeInBytes=8.0 EB, hints=none)

+- Project [cntry_code#108, nsf_on_entry#111], Statistics(sizeInBytes=4.4 EB, hints=none)

+- HiveTableRelation `fpv3653`.`cc_rank_agg`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cntry_code#108, num_tot_cards#109L, num_nsf_cards#110L, nsf_on_entry#111], [dt#112], Statistics(sizeInBytes=8.0 EB, hints=none)

解決方法

1. enlarge spark.sql.autoBroadcastJoinThreshold( default is 10M), 但是好像不合適，Optimized Logical Plan 裏面

- Project [cntry_code#108, nsf_on_entry#111], Statistics(sizeInBytes=4.4 EB, hints=none)

估計要設置得大於4.4EB ，才能讓spark 從 sort merged join 變成 broadcast join.

這裏記錄下什麼是EB （見最後）

2. 使用 broadcast join 語法，指定小表 cc_rank_agg.

select /*+ BROADCAST (cc_rank_agg) */ cc_base_part1.*,cc_base_part1.nsf_cards_ratio *1.00 / cc_rank_agg.nsf_on_entryas nsf_ratio_to_pop

from cc_base_part1

left join cc_rank_agg

on trim(cc_base_part1.country) =trim(cc_rank_agg.cntry_code);

改完看下新的 physical plan, 的確變成 broadcast join. job 終於跑過了！

== Physical Plan ==

*(1) Project [cust_id#89, country#90, cc_id#91, bin_hmac#92, credit_card_created_date#93, card_usage#94, cc_category#95, cc_size#96, nsf_risk#97, nsf_cards_ratio#98, dt#99, CheckOverflow((promote_precision(cast(CheckOverflow((promote_precision(nsf_cards_ratio#98) * 1.00), DecimalType(22,4)) as decimal(38,16))) / promote_precision(nsf_on_entry#103)), DecimalType(38,6)) AS nsf_ratio_to_pop#86]

+- *(1) BroadcastHashJoin [trim(country#90, None)], [trim(cntry_code#100, None)], LeftOuter, BuildRight

:- HiveTableScan [cust_id#89, country#90, cc_id#91, bin_hmac#92, credit_card_created_date#93, card_usage#94, cc_category#95, cc_size#96, nsf_risk#97, nsf_cards_ratio#98, dt#99], HiveTableRelation `fpv3653`.`cc_base_part1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cust_id#89, country#90, cc_id#91, bin_hmac#92, credit_card_created_date#93, card_usage#94, cc_category#95, cc_size#96, nsf_risk#97, nsf_cards_ratio#98], [dt#99]

+- BroadcastExchange HashedRelationBroadcastMode(List(trim(input[0, string, true], None)))

+- HiveTableScan [cntry_code#100, nsf_on_entry#103], HiveTableRelation `fpv3653`.`cc_rank_agg`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cntry_code#100, num_tot_cards#101L, num_nsf_cards#102L, nsf_on_entry#103], [dt#104]

3. 發生這樣的情況是因爲hive table statistics 統計信息不對，這麼一張小表怎麼會是8.0 EB

+- HiveTableRelation `fpv3653`.`cc_rank_agg`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cntry_code#108, num_tot_cards#109L, num_nsf_cards#110L, nsf_on_entry#111], [dt#112], Statistics(sizeInBytes=8.0 EB, hints=none)

spark 提供了 analyze compute statistics 去重新計算 table 的 statistics

analyze table fpv3653.cc_rank_agg compute statistics noscan;

重新計算後，再打印執行計劃，可以看到cc_rank_agg 小表只有2.1KB ， spark 自動把這個 join 變成了 broadcast join

== Optimized Logical Plan ==

Project [cust_id#48, country#49, cc_id#50, bin_hmac#51, credit_card_created_date#52, card_usage#53, cc_category#54, cc_size#55, nsf_risk#56, nsf_cards_ratio#57, dt#58, CheckOverflow((cast(CheckOverflow((nsf_cards_ratio#57 * 1.00), DecimalType(22,4)) as decimal(38,16)) / nsf_on_entry#62), DecimalType(38,20)) AS nsf_ratio_to_pop#45], Statistics(sizeInBytes=1.01E+22 B, hints=none)

+- Join LeftOuter, (trim(country#49) = trim(cntry_code#59)), Statistics(sizeInBytes=1.10E+22 B, hints=none)

   :- CatalogRelation `fpv3653`.`cc_base_part1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cust_id#48, country#49, cc_id#50, bin_hmac#51, credit_card_created_date#52, card_usage#53, cc_category#54, cc_size#55, nsf_risk#56, nsf_cards_ratio#57], [dt#58], Statistics(sizeInBytes=8.0 EB, hints=none)

   +- Project [cntry_code#59, nsf_on_entry#62], Statistics(sizeInBytes=1198.0 B, hints=none)

+- CatalogRelation `fpv3653`.`cc_rank_agg`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cntry_code#59, num_tot_cards#60L, num_nsf_cards#61L, nsf_on_entry#62], [dt#63], Statistics(sizeInBytes=2.1 KB, hints=none)

== Physical Plan ==

*Project [cust_id#48, country#49, cc_id#50, bin_hmac#51, credit_card_created_date#52, card_usage#53, cc_category#54, cc_size#55, nsf_risk#56, nsf_cards_ratio#57, dt#58, CheckOverflow((cast(CheckOverflow((nsf_cards_ratio#57 * 1.00), DecimalType(22,4)) as decimal(38,16)) / nsf_on_entry#62), DecimalType(38,20)) AS nsf_ratio_to_pop#45]

+- *BroadcastHashJoin [trim(country#49)], [trim(cntry_code#59)], LeftOuter, BuildRight

   :- HiveTableScan [cust_id#48, country#49, cc_id#50, bin_hmac#51, credit_card_created_date#52, card_usage#53, cc_category#54, cc_size#55, nsf_risk#56, nsf_cards_ratio#57, dt#58], CatalogRelation `fpv3653`.`cc_base_part1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cust_id#48, country#49, cc_id#50, bin_hmac#51, credit_card_created_date#52, card_usage#53, cc_category#54, cc_size#55, nsf_risk#56, nsf_cards_ratio#57], [dt#58]

   +- BroadcastExchange HashedRelationBroadcastMode(List(trim(input[0, string, true])))

+- HiveTableScan [cntry_code#59, nsf_on_entry#62], CatalogRelation `fpv3653`.`cc_rank_agg`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, [cntry_code#59, num_tot_cards#60L, num_nsf_cards#61L, nsf_on_entry#62], [dt#63]

什麼是 EB?

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342

spark2.3 跑不過去的join 排查

推荐阅读更多精彩内容