目录
文章目录
前文列表
《用 C 语言开发一门编程语言 — 交互式 Shell》
《用 C 语言开发一门编程语言 — 跨平台》
《用 C 语言开发一门编程语言 — 语法解析器》
《用 C 语言开发一门编程语言 — 基于抽象语法数的求值计算》
《C 语言开发一门编程语言 — 异常处理》
使用 S-表达式进行重构
所谓 S-表达式(Symbolic Expression,S-Expression,符号表达式)是指一种以人类可读的文本形式表达半结构化数据的约定方式。S-Expression 在 Lisp 家族的编程语言中被使用而为人所知。S-Expression 在 Lisp 中既用作代码,也用作数据,这使得它非常强大,能完成许多其他语言不能完成的事情。
为了拥有这个强大的特性,我们需要将以往实现的求值过程分为两个新的过程:
- 读取并存储输入
- 对输入进行求值
这样(先存储、再求值)的话,S-Expression 在 Lisp 中就可以既用作代码,也用作数据了。
读取并存储输入
实现 S-Expression 语法解析器
首先实现 S-Expression 的读取,我们将原有的波兰表达式解析器改造为 S-Expression 解析器。
S-Expression 的语法规则非常简单:
- 小括号之间包含一组表达式
- 表达式可以是数字、操作符或是其他的 S-Expression
另外,我们把 operator(操作符)规则重定义为 symbol(符号)规定,使其可以表示更多的含义,例如:操作符、变量、函数等。
实现 S-Expression 存储器
为了存储输入的 S-Expression,我们需要创建一个内部的列表结构,能够递归地表示数字、操作符号以及其他的列表。我们可以通过改造 lval 结构体来实现。
首先,我们向枚举中添加两个新的类型分别标识 Symbols 和 S-Expression:
- LVAL_SYM:表示操作符类型,例如 + 等
- LVAL_SEXPR:表示 S-表达式
然后,因为 S-Expression 是一个可变长度的列表,所以只能使用指针来表示它(结构体本身是固定大小的)。我们为 lval 结构体创建一个 cell 字段指向一个存放 lval *
列表的区域,所以 cell 的类型就应该是二重指针 lval**
。因为 lval *
列表是可变长的,通过指针的方式,我们实现了在不可变长的结构体中,存储可变长的列表结构。另外,我们还需要知道 cell 列表中的元素个数,所以创建了 count 字段。
为了让 lval 结构体可以存储更加具体的错误信息了,而不只是一个错误代码,我们还增加了 ERROR 字符串用来存储错误信息,这样我们就可以删除掉之前写的错误枚举了。另外,我们还需要使用一个字符串来表示 Symbols。
实现 lval 变量的构造函数
通过上述的分析,我们知道 lval 结构体是一个大小不定的变量,处理性能的考虑,我们应该通过 lval 结构体指针来对其进行操作。尤其是在函数实参传入的时候,传递指针作为实参可以避免 C 语言对整个结构体数据的拷贝。
所以我们重写 lval 的构造函数,使其返回 lval 结构体的指针,而不是其本身。这样做会使得对 lval 变量进行跟踪更加简单。为此,我们使用 malloc 库函数以及 sizeof 运算符为 lval 结构体在堆上申请足够大的内存区域,然后使用 ->
操作符填充结构体中的相关字段。
实现 lval 变量的析构函数
当我们构造一个 lval 变量的时候,它的某些指针字段包含了在堆上申请的内存,所以当某个 lval 变量完成使命之后,我们不仅需要删除它本身所指向的堆内存,还要删除它的指针字段所指向的堆内存。这就是析构函数要处理的事情。
析构函数应该调用 free 函数来释放指针字段所指向的由 malloc 函数所申请的内存。所以我们只需按照上方介绍的构造函数,来对应释放相应字段的内存,就不会有内存的泄露了。
读取 S-Expression
读取到了用户的输入后,S-Expression 语法解析器会将输入的字符串解析为 S-Expression 抽象语法树,我们可以递归的查看语法分析树中的每个节点,并根据节点的 tag 和 contents 字段构造出不同类型的 lval 结构体变量,再以指针的形式返回。然后我们对这个变量进行遍历求值来得到最终的运行结果。
- S-Expression:
(* 2 (+ 3 4))
的 AST示例
所以在进行实际的运算之前,我们还需要对 S-Expression AST 进行处理:
- 如果给定节点的被标记为 number 或 symbol,则我们可以调用对应的构造函数直接返回一个
lval *
。 - 如果给定的节点被标记为 root 或 sexpr,则我们应该构造一个空的 S-Expression 类型的
lval *
,并逐一将它的子节点加入。
为了更加方便的向一个 S-Expression 中添加元素,我们可以创建一个函数 lval_add,这个函数将 S-Expression 的子表达式 count + 1,然后使用 realloc 函数为 v->cell
字段重新扩大申请内存,用于存储刚刚加入的子表达式 lval *x
。
我们还需要修改打印函数使其能够打印出 S-Expression。通过将 S-Expression 打印出来便于与输入进行对比,可以进一步检查读入模块是否正确工作。为了打印 S-Expression,我们创建一个新函数,遍历所有的子表达式,并将它们单独打印出来,以空格隔开,正如输入的时候一样。
void lval_expr_print(lval* v, char open, char close) {
putchar(open);
for (int i = 0; i < v->count; i++) {
/* Print Value contained within */
lval_print(v->cell[i]);
/* Don't print trailing space if last element */
if (i != (v->count-1)) {
putchar(' ');
}
}
putchar(close);
}
void lval_print(lval* v) {
switch (v->type) {
case LVAL_NUM: printf("%li", v->num); break;
case LVAL_ERR: printf("Error: %s", v->err); break;
case LVAL_SYM: printf("%s", v->sym); break;
case LVAL_SEXPR: lval_expr_print(v, '(', ')'); break;
}
}
void lval_println(lval* v) { lval_print(v); putchar('\n'); }
注意,lval_expr_print 函数和 lval_print 函数互相调用了。C 语言提供了前置声明来解决这个问题。前置声明就是告诉编译器:“我保证有这个函数,你放心调用就是了”。所以,前置声明只定义了函数的形式,而没有函数体。它允许其他函数调用它,而具体的函数定义则在后面。函数声明只要将函数定义的函数体换成 ;
即可。在我们的程序中,应该将前置声明语句 void lval_print(lval* v);
放在一个比 lval_expr_print 函数靠前的地方。
在主循环中,我们可以将求值部分移除了,替换为新写就的读取和打印函数。
lval* x = lval_read(r.output);
lval_println(x);
lval_del(x);
对输入进行求值
S-Expression 求值的运算过程:
- 首先取列表第一个元素为操作符
- 然后遍历所有剩下的元素,将它们作为操作数
求值函数的具体行为和之前的并无太大变化。我们需要将其适配本章定义的 lval *
以及更加灵活的表达式定义。
其实可以把求值函数想象成某种转换器--它读取 lva l*
作为输入,通过某种方式将其转化为新的 lval *
并输出。在有些时候,求值函数不对输入做任何修改,原封不动的将其返回;有些时候,它会对输入的做一些改动;而在大多数情况下,它会将输入的 lval *
删除,返回完全不同的东西。如果要返回新的东西,一定要记得将原有的作为输入的 lval *
删除。
对于 S-表达式,我们首先遍历它所有的子节点,如果子节点有任何错误,我们就使用稍后定义的函数 lval_take 将遇到的第一个错误返回。
对于没有子节点的 S-表达式直接将其返回就可以了,这是为了处理空表达式 {}
的情况。另外,我们还需要检查只有一个子节点的表达式,例如 {5}
,这种情况我们应该将其包含的表达式返回。
如果以上情况都不成立,那我们就知道这是一个合法的表达式,有个多于一个的子节点。对于此种情况,我们使用稍后定义的函数 lval_pop 将第一个元素从表达式中分离开来,然后检查确保它是一个 symbol。然后根据它的具体类型,将它和参数一起传入 builtin_op 函数计算求值。如果它不是 symbol,我们就将它以及传进来的其它参数删除,然后返回一个错误。
对于其它的非 S-表达式类型,我们就直接将其返回。
lval* lval_eval_sexpr(lval* v) {
/* Evaluate Children */
for (int i = 0; i < v->count; i++) {
v->cell[i] = lval_eval(v->cell[i]);
}
/* Error Checking */
for (int i = 0; i < v->count; i++) {
if (v->cell[i]->type == LVAL_ERR) { return lval_take(v, i); }
}
/* Empty Expression */
if (v->count == 0) { return v; }
/* Single Expression */
if (v->count == 1) { return lval_take(v, 0); }
/* Ensure First Element is Symbol */
lval* f = lval_pop(v, 0);
if (f->type != LVAL_SYM) {
lval_del(f); lval_del(v);
return lval_err("S-expression Does not start with symbol!");
}
/* Call builtin with operator */
lval* result = builtin_op(v, f->sym);
lval_del(f);
return result;
}
lval* lval_eval(lval* v) {
/* Evaluate Sexpressions */
if (v->type == LVAL_SEXPR) { return lval_eval_sexpr(v); }
/* All other lval types remain the same */
return v;
}
上面的代码中用到了两个我们还没有定义的函数:lval_pop 和 lval_take,这两个都是用于操作 lval 类型的通用型函数。
- lval_pop 函数将所操作的 S-表达式的第 i 个元素取出,并将在其后面的元素向前移动填补空缺,使得这个 S-表达式不再包含这个元素。然后将取出的元素返回。需要注意的是,这个函数并不会将这个 S-表达式删除。它只是从中取出某个元素,剩下的元素都保持原样。这意味着这两部分最终都需要在某个地方使用 lval_del 函数删除。
- lval_take 和 lval_pop 函数类似,不过它将取出元素之后剩下的列表删除了。它利用了 lval_pop 函数并做了一点小小的改变,却使得我们的代码可读性更高了一些。所以,不同于 lval_pop,你只需负责使用 lval_del 删除取出的元素即可。
lval* lval_pop(lval* v, int i) {
/* Find the item at "i" */
lval* x = v->cell[i];
/* Shift memory after the item at "i" over the top */
memmove(&v->cell[i], &v->cell[i+1],
sizeof(lval*) * (v->count-i-1));
/* Decrease the count of items in the list */
v->count--;
/* Reallocate the memory used */
v->cell = realloc(v->cell, sizeof(lval*) * v->count);
return x;
}
lval* lval_take(lval* v, int i) {
lval* x = lval_pop(v, i);
lval_del(v);
return x;
}
我们还需要定义求值函数 builtin_op,它和我们在之前章节定义的 eval_op 函数类似,改成了接受一个 lval *
来代表一系列的参数。该函数应该对参数做更加严格的检查,如果有任何参数不是数字类型的 lval *
,都应该返回一个错误。
首先,它确保所有的输入参数的类型都为数字。然后将第一个数字弹出开始计算。如果后面没有其它的子表达式,并且操作符为减号时,它会对第一个数字进行取反操作。这确保了类似于 (- 5) 这种表达式能够正确工作。
如果还有更多的参数,它就不断地从列表中取出,将其和之前的计算结果一起进行相应的数学运算。如果做除法时遇到被除数为零的情况,就将临时变量 x 和 y 以及参数列表删除,并返回一个错误。
如果没有错误,参数列表最终会被删除,并返回一个新的表达式。
lval* builtin_op(lval* a, char* op) {
/* Ensure all arguments are numbers */
for (int i = 0; i < a->count; i++) {
if (a->cell[i]->type != LVAL_NUM) {
lval_del(a);
return lval_err("Cannot operate on non-number!");
}
}
/* Pop the first element */
lval* x = lval_pop(a, 0);
/* If no arguments and sub then perform unary negation */
if ((strcmp(op, "-") == 0) && a->count == 0) {
x->num = -x->num;
}
/* While there are still elements remaining */
while (a->count > 0) {
/* Pop the next element */
lval* y = lval_pop(a, 0);
if (strcmp(op, "+") == 0) { x->num += y->num; }
if (strcmp(op, "-") == 0) { x->num -= y->num; }
if (strcmp(op, "*") == 0) { x->num *= y->num; }
if (strcmp(op, "/") == 0) {
if (y->num == 0) {
lval_del(x); lval_del(y);
x = lval_err("Division By Zero!"); break;
}
x->num /= y->num;
}
lval_del(y);
}
lval_del(a); return x;
}
到此我们的求值函数就完成了。我们只需要再次更新一下 main 函数,在其打印表达式之前,先将输入经由求值函数处理即可。
lval* x = lval_eval(lval_read(r.output));
lval_println(x);
lval_del(x);
来源:oschina
链接:https://my.oschina.net/u/4403345/blog/3227914