目录
不了解词法分析器以及其应用场景吗?建议用2分钟时间查看入门文章:词法分析器的介绍与应用场景
目前常见的词法分析器与语言耦合较为紧密且代码量较为庞大,难以关注词法分析器其本质原理。
为把关注重心放在词法分析器的工作原理上,不再需要考虑由不同语言造成的细枝末节差异,于是就有了此lexer
项目。
lexer
主要通过以下两个JS文件,实现词法分析器与语言的解耦
/src/lexer.js
文件是词法分析器的核心,主要分为ISR
(输入流读取器)和DFA
(有限状态自动机),代码会保持在300行内/src/lang/{lang}-define.js
文件是词法分析器的扩展,支持不同语言的接入,如/src/lang/c-define.js
文件
从输入字符序列,到分析结束后生成token
,lexer
具备了完整的词法分析功能,如内置的C语言版lexer
共支持11种类型的token
lexer
支持接入如Python
、Go
等不同的语言,实现对不同语言进行词法分析的需求,扩展接入方式见贡献部分,目前已支持如下语言的词法分析
词法分析器的核心机制是基于DFA
的状态流转,为此lexer
记录了详细的状态流转信息,以实现使用方的以下需求
lexer
的功能调试模式- 自动生成
DFA
状态流转图
使用git clone
获取本项目后,不需要任何依赖的安装,也不需多余的安装步骤
如果有在代码中使用lexer
的需求(如网页中的代码编辑器:高亮、代码提示等),只引入一个/package/{lang}-lexer.min.js
文件即可
然后直接访问lexer
变量即可获取到词法分析器对象,其中tokens
数据可以通过访问lexer.DFA.result.tokens
获取
// 1. 需要词法分析的代码
let stream = "int a = 10;";
// 2. 开始词法分析
lexer.start(strem);
// 3. 词法分析结束后, 获取生成的tokens
let parsedTokens = lexer.DFA.result.tokens;
// 4. 做你想做的
parsedTokens.forEach((token) => {
// ... ...
});
功能介绍中所描述的记录状态流转信息,通过访问flowModel.result.paths
即可获取到lexer
内部状态机在每次状态流转时的详细信息,数据格式如下所示
[
{
state: 0, // 当前状态
ch: "a", // 当前读入的字符
nextSstate: 2, // 下一个状态
match: true, // 是否匹配
end: false, // 是否是最后一个字符
},
// ... ...
]
为了实时查看lexer
的工作效果,也方便对其进行开发测试,在项目根目录下有一个index.html
文件,直接在浏览器中打开,输入代码后会自动输出经过lexer
分析后生成的Token
,如下图所演示
int a = 10;
int b =20;
int c = 20;
float f = 928.2332;
char b = 'b';
if(a == b){
printf("Hello, World!");
}else if(b!=c){
printf("Hello, World! Hello, World!");
}else{
printf("Hello!");
}
或者请查看线上网站
关于项目设计、单元测试、自动化测试、开发规范、以及如何接入不同语言的扩展等与源码开发相关的文档,请阅读源码讲解部分
- 提供更多新功能
- 提供更多语言的
/src/lang/{lang}-define.js
此外,一切帮助项目变得更好的建议都欢迎讨论,交流渠道参考问题交流部分
项目以版本号为大更新-小更新-修复完善
的规则发布,关于版本的更新记录可以查看项目的CHANGELOG,或查看Release记录