电子说
有了前文中的积木,继续实现一个词法分析器就不再困难。
先回顾一下各个模块:
然后我们试图将他们组装起来,因为一开始实现的都是零件(子函数)部分,本文主要介绍在main函数中运行的自动机。
还记得-1篇中的DFA吗?
经过第0篇,以及满足题目要求,我们最终的DFA应该是这样:
流程大致为:
按照以上思路,经过不断地调试完善,主函数设计为:
int main()
{
initialize();
string tmp;
char c;
while((c = getchar()) != EOF)
{
if(isspace(c)) // 忽略空白
continue;
if(isdigit(c)) // 如果是数字开头
{
ungetc(c, stdin);
cout << "DIGIT : " << num() << endl;
continue;
}
char peek;
peek = getchar(); // 一步提前量
if((c == '+' || c == '-') && isdigit(peek)) //输入带符号数
{
ungetc(peek, stdin);
ungetc(c, stdin);
cout << "DIGIT : " << num() << endl;
continue;
}
if(c == '/' && peek == '*') //输入注释
{
cout << "COMMENTS : /*" << comments() << endl;
continue;
}
int tkn = 0;
string s;
if(!isalnum(c)) // 输入c为专用符号
{
s += c;
if(peek == '=') // 所定义的双目运算符中第二个只有 = 可以偷懒;
s += peek;
else ungetc(peek, stdin);
tkn = query(s);
}
if(!tkn){ // 若不是专用符号开头,即为字母开头
ungetc(peek, stdin);
s += c;
while((c = getchar()) != EOF) // 读入这一串字母
{
if(isspace(c)) break;
if(isalnum(c) || c == '_')
s += c;
else{
ungetc(c, stdin);
break;
}
}
tkn = query(s); // 查询token
}
switch (tkn) // 依据token打印
{
case 1:
cout << "KEYWORD : " << s << endl;
break;
case 2:
cout << "BASIC : " << s << endl;
break;
case 3:
cout << "IDENTITY : " << s << endl;
break;
case 5:
cout << "SYMBOL : " << s << endl;
break;
default:
break;
}
}
return 0;
}
测试
使用测试样例1:
{ /* An example */
int i,j; float x; float[100] a;
while ( true) {
do i = i + 1; while ( a[i] < x);
if ( i >= j ) break;
x = a[i];
}
}
输出结果:
// line 1 { /* An example */
SYMBOL : {
COMMENTS : /* An example */
// line 2 int i,j; float x; float[100] a;
BASIC : int
IDENTITY : i
SYMBOL : ,
IDENTITY : j
SYMBOL : ;
BASIC : float
IDENTITY : x
SYMBOL : ;
BASIC : float
SYMBOL : [
DIGIT : 100
SYMBOL : ]
IDENTITY : a
SYMBOL : ;
// line 3 while ( true) {
KEYWORD : while
SYMBOL : (
KEYWORD : true
SYMBOL : )
SYMBOL : {
// line 4 do i = i + 1; while ( a[i] < x);
KEYWORD : do
IDENTITY : i
SYMBOL : =
IDENTITY : i
SYMBOL : +
DIGIT : 1
SYMBOL : ;
KEYWORD : while
SYMBOL : (
IDENTITY : a
SYMBOL : [
IDENTITY : i
SYMBOL : ]
SYMBOL : <
IDENTITY : x
SYMBOL : )
SYMBOL : ;
// line 5 if ( i >= j ) break;
KEYWORD : if
SYMBOL : (
IDENTITY : i
SYMBOL : >=
IDENTITY : j
SYMBOL : )
KEYWORD : break
SYMBOL : ;
// line 6 x = a[i];
IDENTITY : x
SYMBOL : =
IDENTITY : a
SYMBOL : [
IDENTITY : i
SYMBOL : ]
SYMBOL : ;
// line 7 }
SYMBOL : }
// line 8 }
SYMBOL : }
可以发现输出结果是完全正确的。
测试样例2:测试数字
+1212.551e1589
输出:
DIGIT : +1212.551e1589
好,到此,我们就完成了本次实验任务,一个简单的词法分析器的设计,在设计过程中,我们使用到了Trie树这一数据结构,使得代码变得美观了许多,同时,针对较为复杂的数字读取行为,我们设计了一个DFA确定的有限状态自动机完成,最终,我们在main函数中,将他们拼接起来,就形成了最后的词法分析器,整个实验用时半天,整体思想并不难理解,相信大家如果从头看到此处应该逻辑会相当清晰。
全部0条评论
快来发表一下你的评论吧 !