04. Hive源码 — HQL解析(抽象语法树的生成和语义分析)

HQL的解析过程主要在Driver中的compile方法,这一些主要看这个方法中的代码。

1. compile中的主要内容

public int compile(String command, boolean resetTaskIds, boolean deferClose) {
  ..........
  // 对sql语句进行处理(敏感信息、变量替换等)
  String queryStr = command;
  queryStr = HookUtils.redactLogString(conf, command); // 处理敏感信息(这里应该是可以自定义扩展的)

  ............
  // Step1. 获取抽象语法树 
  ASTNode tree = ParseUtils.parse(command, ctx);

  .............
  // Step2. 进行语义分析
  BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, tree);
  sem.analyze(tree, ctx);
  sem.validate();

  // Step3. 生成执行计划
  schema = getSchema(sem, conf);
  plan = new QueryPlan(queryStr, sem, perfLogger.getStartTime(PerfLogger.DRIVER_RUN), queryId, queryState.getHiveOperation(), schema);
  ............. 
  return 0;
}

compile中主要有三大部分内容:

  • 根据SQL生成抽象语法树
  • 进行语义分析
  • 执行计划的生成

2. 获取抽象语法树

主要是通过ParseUtils中的parse方法来生成语法树,最后转向ParseDriver中的parse方法,代码如下:

public ASTNode parse(String command, Context ctx, String viewFullyQualifiedName) {
  .............
  // 创建词法规则
  HiveLexerX lexer = new HiveLexerX(new ANTLRNoCaseStringStream(command));
  TokenRewriteStream tokens = new TokenRewriteStream(lexer);
  // 创建语法分析器
  HiveParser parser = new HiveParser(tokens);
  r = parser.statement();
  ASTNode tree = (ASTNode) r.getTree();
  .............
  return tree;
}

Hive主要是通过用ANTLR语法定义的词法和文法文件来进行解析,最后生成抽象语法树。

3. 进行语义分析

语义分析主要通过 BaseSemanticAnalyzer 实现类中的 analyze 方法进行。
不同的sql语句会用不同的 BaseSemanticAnalyzer实现类来进行分析,主要有以下语义分析器:

3.1 语义分析器
语法 语义分析器
explain ....... ExplainSemanticAnalyzer
rewirte ..... ?? ExplainSQRewriteSemanticAnalyzer
load ... LoadSemanticAnalyzer
export ... ExportSemanticAnalyzer
import ... ImportSemanticAnalyzer
repl dump ... / repl load ... / repl status ... ?? ReplicationSemanticAnalyzer
alter table .../ alter view ... DDLSemanticAnalyzer
create database .../ drop database .../ use databaseName / drop table .../ drop view .../ drop materialized view .../ desc database .../ desc table .../ desc function .../ msck ...??/ rebuild ...??/show databases... / show tables.../ show columns.../ show create .... / show functions .../ show partitions .../ show ....../ abort transcations .../ lock .../ grant ... / revoke ... / set role ... DDLSemanticAnalyzer
create function ... / drop function ... / reload function ... FunctionSemanticAnalyzer
analyze ... ColumnStatsSemanticAnalyzer
create macro.../ drop macro... (宏) MacroSemanticAnalyzer
update table.../ delete from ... / merge ... UpdateDeleteSemanticAnalyzer
其他语句 如果参数 hive.cbo.enable 被置为 true(默认情况下是true),则创建 CalcitePlanner对象,否则创建SemanticAnalyzer对象。CalcitePlanner继承了SemanticAnalyzer

从上面对应关系看来,我们常写的查询语句主要是通过 SemanticAnalyzer 中的 analyze 方法解析的。

3.2 SemanticAnalyzer语义分析器中的analyze方法

主要看其中的analyze方法,anlyze最终转向的是各个语义分析器中的 analyzeInternal 方法,SemanticAnalyzer中的analyzeInternal 代码如下:

// PlannerContext 是SemanticAnalyzer中的一个静态类,
// 如果参数hive.cbo.enable为false,这里 plannerCtx 是新建的 PlannerContext 的对象
// 如果参数hive.cbo.enable为true,这里 plannerCtx 是 PreCboCtx 对象,PreCboCtx继承了PlannerContext 
void analyzeInternal(ASTNode ast, PlannerContext plannerCtx) throws SemanticException {
  ...........
  // step1. 从抽象语法树生成 resolved parse tree
  genResolvedParseTree(ast, plannerCtx)
  
  ...........
  // step2. 从 resolved parse tree 生成 op tree
  Operator sinkOp = genOPTree(ast, plannerCtx);
  ...........

  // step3. 推断结果集表结构
  resultSchema = convertRowSchemaToViewSchema(opParseCtx.get(sinkOp).getRowResolver());
  或者
  resultSchema = convertRowSchemaToResultSetSchema(opParseCtx.get(sinkOp).getRowResolver(), HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_RESULTSET_USE_UNIQUE_COLUMN_NAMES));
  ............

  // step4. 为优化器和物理编译器生成上下文
  ParseContext pCtx = new ParseContext(queryState, opToPartPruner, opToPartList, topOps,
      new HashSet<JoinOperator>(joinContext.keySet()),
      new HashSet<SMBMapJoinOperator>(smbMapJoinContext.keySet()),
      loadTableWork, loadFileWork, columnStatsAutoGatherContexts, ctx, idToTableNameMap, destTableId, uCtx,
      listMapJoinOpsNoReducer, prunedPartitions, tabNameToTabObject, opToSamplePruner,
      globalLimitCtx, nameToSplitSample, inputs, rootTasks, opToPartToSkewedPruner,
      viewAliasToInput, reduceSinkOperatorsAddedByEnforceBucketingSorting,
      analyzeRewrite, tableDesc, createVwDesc, queryProperties, viewProjectToTableSchema, acidFileSinks);
   
  ...........

  // step5. 执行逻辑优化
  Optimizer optm = new Optimizer();
  optm.setPctx(pCtx);
  optm.initialize(conf);
  pCtx = optm.optimize();
  FetchTask origFetchTask = pCtx.getFetchTask();
  
  .............

  // step6.优化物理执行树 & 翻译成目标执行引擎
  TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx);
  compiler.init(queryState, console, db);
  compiler.compile(pCtx, rootTasks, inputs, outputs);
  fetchTask = pCtx.getFetchTask();
  ...............
  return;
}

从以上代码中可以看出语义分析中主要包括以下几部分:

  • 从抽象语法树生成 resolved parse tree
  • 从 resolved parse tree 生成 op tree
  • 推断结果集表结构
  • 为优化器和物理编译器生成上下文
  • 执行逻辑优化
  • 优化物理执行树 & 翻译成目标执行引擎

4. 小结

这一节主要看了一下HQL解析中抽象语法树的生成和语义分析器中的analyze方法都做了什么,后面开始分析从抽象语法树 到 执行计划的过程中都做了什么。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335