手写一个语法分析器

语法分析

先实现一个简单的语法分析,用BNF表示如下:

expression -> equality;
equality   -> comparison ( ( "!=" | "==" ) comparsion )*;
comparison -> term ( (">" | ">=" | "<" | "<=") term)*;
term       -> factor ( ("-" | "+") factor)*;
factor     -> unary (( "/" | "*") unary)*;
unary      -> ( "!" | "-") unary | primary;   
primary    -> NUMBER | STRING | "true" | "false" | "nil" | "(" expression ")";

我们用递归下降解析来实现,最后用语法树表示。
参考维基百科中递归下降解析器的说明, 递归下降是一种自上而下的解析器,由一组相互递归的程序(或等价的非递归程序)构建而成,其中每个程序都实现了文法中的一个非终结符。因此,这些程序的结构密切反映了它所识别的文法结构。
例如文法

        S->cAd
        A->ab|a

用下面的方式来解析:

class compilerEngile {
    constructor(input) {
        // ...
    }
    
    compilerS() {
        // ...
    }

    compilerA() {
        // ...
    }

    run() {
        this.compilerS(); // Start !!!
    }
}

语法解析

语法解析结果我们用语法树表示。 通过上述的BNF可以看到,这里存在递归引用。我们用Expr类作为基类表示。 其他的都是Expr的子类。如下图所示:

class Expr {
    static class Binary extends Expr {
        Binary(Expr left, Token operator, Expr right) {
            this.left = left;
            this.operator = operator;
            this.right = right;
        }

        final Expr left;
        final Token operator;
        final Expr right;
    }
    
    static class Literal extends Expr {
        Literal(Object value) {
            this.value = value;
        }

        final Object value;
    }
}

然后我们对词法解析完的token list进行解析,按照上述BNF解析完后,得到一个以Expr为root节点的语法树。其中的节点是Expr的个子类。

解析

public class Parser {
    private List<Token> tokens;
    private int position = 0;

    public Expr parse(List<Token> tokens) {
        this.tokens = tokens;
        return expression();
    }

    private Expr expression() {
        return equality();
    }

    private Expr equality() { // != == 都是左运算符
        Expr expr = comparison();
        while (match(TokenType.BANG_EQUAL, TokenType.EQUAL_EQUAL)) {
            Token operator = previous();
            Expr right = comparison(); 
            expr = new Expr.Binary(expr, operator, right);
        }
        return expr;
    }

    private Expr comparison() {
        Expr expr = term();
        while (match(TokenType.GREATER, TokenType.GREATER_EQUAL, TokenType.LESS, TokenType.LESS_EQUAL)) {
            Token operator = previous();
            Expr right = term();
            expr = new Expr.Binary(expr, operator, right);
        }
        return expr;
    }

    private Expr term() {
        Expr expr = factor();
        while (match(TokenType.MINUS, TokenType.PLUS)) {
            Token operator = previous();
            Expr right = factor();
            expr = new Expr.Binary(expr, operator, right);
        }
        return expr;
    }

    private Expr factor() {
        Expr expr = unary();
        while (match(TokenType.SLASH, TokenType.STAR)) {
            Token operator = previous();
            Expr right = unary();
            expr = new Expr.Binary(expr, operator, right);
        }
        return expr;
    }

    private Expr unary() {
        if (match(TokenType.BANG, TokenType.MINUS)) {
            Token operator = previous();
            Expr right = unary();
            return new Expr.Unary(operator, right);
        }
        return primary();
    }

    private Expr primary() {
        Token cToken = current();
        System.out.print(String.format("Current Token %s, position %d", cToken, this.position));
        if (match(TokenType.NUMBER)) {
            Token token = previous();
            return new Expr.Literal(token.value);
        }
        if (match(TokenType.STRING)) {
            Token token = previous();
            return new Expr.Literal(token.value);
        }
        if (match(TokenType.TRUE)) {
            return new Expr.Literal(true);
        }
        
        if (match(TokenType.FALSE)) {
            return new Expr.Literal(false);
        }

        if (match(TokenType.NIL)) {
            return new Expr.Literal(null);
        }

        if (match(TokenType.LEFT_PAREN)) {
            Expr expr = expression();
            consume(TokenType.RIGHT_PAREN, "Expect ')' ");
            return new Expr.Grouping(expr);
        }

        throw new Error("Parse error");
    }

    private boolean match(TokenType ...types) {
        Token token = current();
        for (TokenType type: types) {
            if (token.tokenType == type) {
                this.advance();
                return true;
            }
        }
        return false;
    }

    private Token current() {
        return this.tokens.get(this.position);
    }

    private void advance() {
        if (!isEnd()) {
            this.position ++;
        }
    }

    private Token previous() {
        return this.tokens.get(this.position - 1);
    }
    
    private void consume(TokenType tokenType, String errmsg) {
        if (!match(tokenType)) {
            Runner.error(errmsg);
        }
    }

    private boolean isEnd() {
        return current().tokenType == TokenType.EOF;
    }

}

Expr的定义如下

abstract class Expr {
    static class Binary extends Expr {
        Binary(Expr left, Token operator, Expr right) {
            this.left = left;
            this.operator = operator;
            this.right = right;
        }

        final Expr left;
        final Token operator;
        final Expr right;

    }

    static class Unary extends Expr {
        Unary(Token operator, Expr unary) {
            this.operator = operator;
            this.unary = unary;
        }

        final Token operator;
        final Expr unary;

    }

    static class Literal extends Expr  {
        Literal(Object value) {
            this.value = value;
        }

        final Object value;

    }

    static class Grouping extends Expr {
        Grouping(Expr expr) {
            this.expr = expr;
        }
        final Expr expr;

    }
    
}

这个时候可以开始解析
调用Parse.parse(tokens),最终会返回一个以Expr为root的语法树。这里,为了方便查看,我们把语法树输出来,这个就涉及到对语法树的遍历处理。一般用visitor模式来遍历处理。 这里用visitor模式,不是因为visitor的名字暗示的这样,方便查看遍历,而是对AST的处理,有很多中,比方说,打印,检查类型, 执行等。用visitor模式,可以再不修改Expr类的情况下,只扩展新的操作类就可以。
我们把原来的Expr改成如下所示:

abstract class Expr {

    interface Visitor<R> {
        R visitBinaryExpr(Binary expr);
        R visitUnaryExpr(Unary expr);
        R visitLiteralExpr(Literal expr);
        R visitGroupingExpr(Grouping expr);
    }

    abstract <R> R accept(Visitor<R> visitor);

    static class Binary extends Expr {
        Binary(Expr left, Token operator, Expr right) {
            this.left = left;
            this.operator = operator;
            this.right = right;
        }

        final Expr left;
        final Token operator;
        final Expr right;

        @Override
        <R> R accept(Visitor<R> visitor) {
            return visitor.visitBinaryExpr(this);
        }
    }

    static class Unary extends Expr {
        Unary(Token operator, Expr unary) {
            this.operator = operator;
            this.unary = unary;
        }

        final Token operator;
        final Expr unary;

        @Override
        <R> R accept(Visitor<R> visitor) {
            return visitor.visitUnaryExpr(this);
        }
    }

    static class Literal extends Expr  {
        Literal(Object value) {
            this.value = value;
        }

        final Object value;

        @Override
        <R> R accept(Visitor<R> visitor) {
            return visitor.visitLiteralExpr(this);
        }
    }

    static class Grouping extends Expr {
        Grouping(Expr expr) {
            this.expr = expr;
        }
        final Expr expr;

        @Override
        <R> R accept(Visitor<R> visitor) {
            return visitor.visitGroupingExpr(this);
        }
    }
}

创建ASTprinter类, 按照想要的输出格式,处理每个节点

public class AstPrinter implements Expr.Visitor<String>{

    String print(Expr expr) {
        return expr.accept(this);
    }

    @Override
    public String visitBinaryExpr(Binary expr) {
        return parenthesize(expr.operator.name, expr.left, expr.right);
    }

    @Override
    public String visitUnaryExpr(Unary expr) {
        return parenthesize(expr.operator.name, expr.unary);
    }

    @Override
    public String visitLiteralExpr(Literal expr) {
        if (expr.value == null) return "nil";
        return expr.value.toString();
    }

    @Override
    public String visitGroupingExpr(Grouping expr) {
        return parenthesize("group", expr.expr);
    }

    private String parenthesize(String name, Expr ...exprs) {
        StringBuilder builder = new StringBuilder();

        builder.append("(").append(name);
        for (Expr expr: exprs) {
            builder.append(" ");
            builder.append(expr.accept(this));
        }
        builder.append(")");
        return builder.toString();

    }
}

从文件输入测试语法,试试

        String text = readTextFile();
        Scanner scanner  = new Scanner();
        List<Token> tokenlist = scanner.scan(text);

        Parser parser = new Parser();
        Expr expr = parser.parse(tokenlist);

        AstPrinter printer = new AstPrinter();
        String printResult = printer.print(expr);
        System.out.println("Result " + printResult);

最终输出

(+ (* 3.0 5.0) 23.0)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容