**ANTLR学习笔记一:概念理解 **
一、什么是ANTLR。
ANTLR是ANother Tool for Language Recognition的缩写,
意为“另一种语言识别工具”,读作Antler。
它是一种解析器程序的代码生成器(作用类似于YACC),
使用LL(*)方法,即从输入字符串的左到右,
用候选项的最左符号匹配输入(即与所有以终结符开头的候选项匹配),
每次向前(右)看n个符号(好像计算机下棋那样)。
二、ANTLR的特点
ANTLR作为一种编译器的制作工具,具有很多有用的功能和特点。
- 使用语法(.g文件)作为输入,生成语言识别器的代码。
- 支持生成各种语言的代码(只需修改与实现语言相关的部分)。
- 自身用Java实现。
- 使用上下文无关语法。
(即语法的所有产生式/规则的左侧总是非终结符,
简单说就是,一个被识别的非终结符无论放在什么地方,
都可以用已有的方式推导) - 语法基于EBNF(扩展的巴科斯范式)。
这意味着,在ANTLR中既可以使用BNF元语言符号
冒号(:)表示推导,
竖线(|)表示或,
也可以使用扩展的元语言符号如
星号(*)表示出现0次或以上。
问号(?)表示出现0次或1次。
加号(+)表示出现1次或以上。
关于EBNF更多介绍可以参考这里:
http://hi.baidu.com/helloweenpad/blog/item/f5b6f701a2694e16738b655e.html - 可以生成多种解析器(通过标注来指定),包括:
文法解析器(常用于把符号保存为AST的非线性结构中)。
词法解析器(把输入切割成线性结构的符号)。
树解析器(输入是树结构数据,即AST,抽象语法树)。
组合词法解析器(文法和词法解析同时进行)。
它比同类工具更易于使用。 - 如果不嵌入源代码,所生成的代码将只检查输入是否可以被识别(即语法检查)。
如果嵌入源代码,可以对识别的语法元素执行相应的动作。
利用嵌入的代码可以获取符号表或中间语言指令(即解析器或编译器)。 - 丰富的参考资料。官方收集了很多语法源文件。
见http://www.antlr.org/grammar/list - 有相关的辅助开发工具和Eclipse插件。
- 更详细请参考官方网站
http://www.antlr.org/
或英文wiki
http://en.wikipedia.org/wiki/ANTLR
三、什么是上下文无关语法和巴科斯范式
ANTLR的语法是基于EBNF的上下文无关语法。
在形式语言的范畴中,上下文无关语法是较弱的文法
(有些语法可以被上下文相关语法描述,
但不能被上下文无关语法描述)。
另外还有更弱的右线性文法(即正则语法)
由于这些特点,普遍使用上下文无关语法来编写计算机语言的
文法解析器(即递归推导),
用更弱的正则语法编写词法解析器来切割符号(即非递归推导)。
在形式上上下文无关语法被写成四元式,即
终结符集合、非终结符集合、(单个)开始符、产生式集合(有限)。
其中非终结符表示可以再分的语法元素,用大写字母表示;
终结符表示不可以再分的元素,用小写字母表示
(有时可以直接写出终结符的字符串内容,或用引号引用,如用-或"-"直接表示减号)
开始符属于非终结符,表示语法推导的开始,一般用S表示。
产生式表示一系列的可选择推导(一般右边个数比左边的个数多)
如果多个产生式的左边相同,可以用竖线(|)合并为一条产生式,
合并后用或分割的符号称为候选式。
巴科斯范式是上下文无关语法的描述语言。
通常只列出产生式和开始符S。
在ANTLR中(习惯上?)词法符号用全大写,文法符号用全小写,
开始符一般放在开头(开始符会变成public方法,被外部程序调用)。
作为终结符的运算符可以用单引号引用,直接写在产生式右边。
四、什么是LL(k)
一种递归下降的分析方法。
第一个L表示从左往右。
第二个L表示最左匹配。
k表示向前看k个符号。
所谓向前看,是指向右看k个符号的内容,但不读入。
来源:CSDN
作者:shenjun134
链接:https://blog.csdn.net/shenjun134/article/details/103994944