1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 792 793 794 795 796 797 798 799 800 801 802 803 804 805 806 807 808 809 810 811 812 813 814 815 816 817 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 833 834 835 836 837 838 839 840 841 842 843 844 845 846 847 848
| 'use strict';
* 今天我们要一起编写一个编译器。但不是普通的编译器。一个超级棒的小编译器!一个非常小的编译器,如果您删除所有注释,该文件将只有大约200行实际代码。 * * 我们将把一些类似LISP的函数调用编译成一些类似C的函数调用。 * * 如果你对其中一个不熟悉的话。我就给你简单介绍一下。 * * 如果我们有两个函数`add`和`subtract`,它们会写成这样: * * LISP C * * 2 + 2 (add 2 2) add(2, 2) * 4 - 2 (subtract 4 2) subtract(4, 2) * 2 + (4 - 2) (add 2 (subtract 4 2)) add(2, subtract(4, 2)) * * 很简单,对吧? * * 很好,因为这正是我们要编译的。虽然这不是一个完整的LISP或C语法,但它的语法足以演示现代编译器的许多主要部分。 */
* 大多数编译器分为三个主要阶段:解析(Parsing)、转换(Transformation)和代码生成(Code Generation) * * 1. *解析* 是将原始代码转换为更抽象的代码表示形式 * * 2. *转换* 接受这种抽象表示,并操纵它来做编译器希望它做的任何事情 * * 3. *代码生成* 获取代码的转换表示形式,并将其转换为新代码 */
* 解析(Parsing)阶段 * ------- * * 解析通常分为两个阶段:词法分析和语法分析 * * 1. *词法分析(Lexical Analysis)*获取原始代码,并通过一种称为记号赋值器(或词法分析器)的东西将其拆分成这些称为记号的东西。 * * 标记(Token)是一组微小的小对象,它们描述了一段孤立的语法。它们可以是数字、标签、标点符号、运算符等等。 * * 2. *语法分析(Syntactic Analysis)*获取标记并将其重新格式化为描述语法的每个部分及其相互关系的表示。这称为中间表示或抽象语法树。 * * 抽象语法树,简称AST,是一个嵌套很深的对象,它以一种既易于使用又能告诉我们大量信息的方式来表示代码。 * * 例如下面的语法: * * (add 2 (subtract 4 2)) * * 词法解析所得到的Token会是像下面这样: * * [ * { type: 'paren', value: '(' }, * { type: 'name', value: 'add' }, * { type: 'number', value: '2' }, * { type: 'paren', value: '(' }, * { type: 'name', value: 'subtract' }, * { type: 'number', value: '4' }, * { type: 'number', value: '2' }, * { type: 'paren', value: ')' }, * { type: 'paren', value: ')' }, * ] * * 而抽象语法树(AST)长这样: * * { * type: 'Program', * body: [{ * type: 'CallExpression', * name: 'add', * params: [{ * type: 'NumberLiteral', * value: '2', * }, { * type: 'CallExpression', * name: 'subtract', * params: [{ * type: 'NumberLiteral', * value: '4', * }, { * type: 'NumberLiteral', * value: '2', * }] * }] * }] * } */
* 转换阶段(Transformation) * -------------- * * 编译器的下一个阶段是转换。同样,这只是取自上一步的AST并对其进行更改。它可以在同一种语言中操作AST,也可以将其翻译成一种全新的语言。 * * 让我们看看如何转换AST。 * * 您可能注意到,AST中包含一些看起来非常相似的元素。他们都有一个type属性。 * 这些节点中的每一个都称为AST节点。这些节点上定义了一些属性,用来描述抽象语法树上一个独立的部分。 * * 例如一个 "数字字面量(NumberLiteral)"节点: * * { * type: 'NumberLiteral', * value: '2', * } * * 或者一个"调用表达式(CallExpression)"节点: * * { * type: 'CallExpression', * name: 'subtract', * params: [...nested nodes go here...], * } * * 当转换AST时,我们可以通过添加/删除/替换属性来操作节点,我们可以添加新节点、删除节点,或者我们可以不考虑现有的AST而基于它创建一个全新的AST。 * * 由于我们的目标是一种新语言,因此我们将专注于创建一种特定于目标语言的全新AST。 * * 遍历 * --------- * * 为了浏览所有这些节点,我们需要能够遍历它们。此遍历过程以深度优先的方式到达AST中的每个节点。 * * { * type: 'Program', * body: [{ * type: 'CallExpression', * name: 'add', * params: [{ * type: 'NumberLiteral', * value: '2' * }, { * type: 'CallExpression', * name: 'subtract', * params: [{ * type: 'NumberLiteral', * value: '4' * }, { * type: 'NumberLiteral', * value: '2' * }] * }] * }] * } * * 因此,对于上面的AST,我们会这样做: * * 1. Program - 从AST的顶层开始 * 2. CallExpression (add) - Program body的第一个元素 * 3. NumberLiteral (2) - CallExpression(add) params的第一个元素 * 4. CallExpression (subtract) - CallExpression(add) params的第二个元素 * 5. NumberLiteral (4) - CallExpression(subtract)的第一个参数 * 6. NumberLiteral (2) - CallExpression(subtract)的第二个参数 * * 如果我们直接操作这个AST,而不是创建单独的AST,我们很可能会在这里引入各种抽象。但是,仅访问树中的每个节点就足以完成我们要做的事情。 * * 我之所以使用“访问”这个词,是因为存在这样一种模式,即如何表示对对象结构元素的操作。 * * 访问 * -------- * * 这里的基本思想是,我们将创建一个“访问者”对象,该对象具有接受不同节点类型的方法。 * * var visitor = { * NumberLiteral() {}, * CallExpression() {}, * }; * * 当我们遍历AST时,每当我们“输入”匹配类型的节点时,都会调用此访问器上的方法。 * * 为了使访问器工作,调用时会将节点和一个父节点的引用传递给它。 * * var visitor = { * NumberLiteral(node, parent) {}, * CallExpression(node, parent) {}, * }; * * 然而,也存在所谓“退出”的可能性。想象一下前面的的树结构以列表形式展现: * * - Program * - CallExpression * - NumberLiteral * - CallExpression * - NumberLiteral * - NumberLiteral * * 当我们往下走的时候,我们会到达死胡同的分支。当我们完成树的每个分支时,我们“退出”它。所以沿着树往下走,我们“进入”每个节点,再往上走,我们“退出”。 * * -> Program (enter) * -> CallExpression (enter) * -> Number Literal (enter) * <- Number Literal (exit) * -> Call Expression (enter) * -> Number Literal (enter) * <- Number Literal (exit) * -> Number Literal (enter) * <- Number Literal (exit) * <- CallExpression (exit) * <- CallExpression (exit) * <- Program (exit) * * 为了支持进入和退出,最终的访问器应该长这样:: * * var visitor = { * NumberLiteral: { * enter(node, parent) {}, * exit(node, parent) {}, * } * }; */
* 代码转换(Code Generation) * --------------- * * 编译器的最后一个阶段是代码生成。有时,编译器会做与转换重叠的事情,但在大多数情况下,代码生成只是将AST和字符串化为代码。 * * 代码转换有几种不同的工作方式,一些编译器将复用前面的Token,另一些编译器将创建单独的代码表示形式,以便它们可以线性打印节点。 * 但判断的是,大多数编译器将使用我们刚刚创建的AST,这就是下面将要关注的。 * * 实际上,我们的代码生成器将知道如何“打印”AST的所有不同节点类型,并且它将递归调用自身来打印嵌套节点,直到所有内容都打印成一个很长的代码字符串。 */
* 上面就是就是编译器的所有不同部分。 * * 这并不是说每个编译器看起来都与我在这里描述的完全一样。编译器有很多不同的用途,它们可能需要比我详细描述的更多的步骤。 * * 但是现在你应该对大多数编译器的大致样子有了一个高层面的认识。 * * 现在我已经解释了所有这些,你们都可以开始编写自己的编译器了,对吗? * * 开个玩笑,这就是我下面要写的:P * * 那么开始吧... */
* ============================================================================ * (/^▽^)/ * 词法分析器(THE TOKENIZER!) * ============================================================================ */
* 我们将用 tokenizer 来开始第一个阶段 ”解析“ 的词法分析部分 * * 我们将写一段代码字符串,并且将它解析成Token数组 * * (add 2 (subtract 4 2)) => [{ type: 'paren', value: '(' }, ...] */
function tokenizer(input) {
let current = 0;
let tokens = [];
while (current < input.length) {
let char = input[current];
if (char === '(') {
tokens.push({ type: 'paren', value: '(', });
current++;
continue; }
if (char === ')') { tokens.push({ type: 'paren', value: ')', }); current++; continue; }
let WHITESPACE = /\s/; if (WHITESPACE.test(char)) { current++; continue; }
let NUMBERS = /[0-9]/; if (NUMBERS.test(char)) {
let value = '';
while (NUMBERS.test(char)) { value += char; char = input[++current]; }
tokens.push({ type: 'number', value });
continue; }
if (char === '"') { let value = '';
char = input[++current];
while (char !== '"') { value += char; char = input[++current]; }
char = input[++current];
tokens.push({ type: 'string', value });
continue; }
let LETTERS = /[a-z]/i; if (LETTERS.test(char)) { let value = '';
while (LETTERS.test(char)) { value += char; char = input[++current]; }
tokens.push({ type: 'name', value });
continue; }
throw new TypeError('I dont know what this character is: ' + char); }
return tokens; }
* ============================================================================ * ヽ/❀o ل͜ o\ノ * 解析器( THE PARSER!!!) * ============================================================================ */
* 在解析器中,我们将获取令牌数组并将其转换为AST。 * * [{ type: 'paren', value: '(' }, ...] => { type: 'Program', body: [...] } */
function parser(tokens) {
let current = 0;
function walk() {
let token = tokens[current];
if (token.type === 'number') {
current++;
return { type: 'NumberLiteral', value: token.value, }; }
if (token.type === 'string') { current++;
return { type: 'StringLiteral', value: token.value, }; }
if ( token.type === 'paren' && token.value === '(' ) {
token = tokens[++current];
let node = { type: 'CallExpression', name: token.value, params: [], };
token = tokens[++current];
while ( (token.type !== 'paren') || (token.type === 'paren' && token.value !== ')') ) { node.params.push(walk()); token = tokens[current]; }
current++;
return node; }
throw new TypeError(token.type); }
let ast = { type: 'Program', body: [], };
while (current < tokens.length) { ast.body.push(walk()); }
return ast; }
* ============================================================================ * ⌒(❀>◞౪◟<❀)⌒ * 转换器(THE TRAVERSER!!!) * ============================================================================ */
* 现在我们有了AST,我们希望能够通过访问者访问不同的节点。我们需要能够在遇到具有匹配类型的节点时调用访问器上的方法。 * * traverse(ast, { * Program: { * enter(node, parent) { * // ... * }, * exit(node, parent) { * // ... * }, * }, * * CallExpression: { * enter(node, parent) { * // ... * }, * exit(node, parent) { * // ... * }, * }, * * NumberLiteral: { * enter(node, parent) { * // ... * }, * exit(node, parent) { * // ... * }, * }, * }); */
function traverser(ast, visitor) {
function traverseArray(array, parent) { array.forEach(child => { traverseNode(child, parent); }); }
function traverseNode(node, parent) {
let methods = visitor[node.type];
if (methods && methods.enter) { methods.enter(node, parent); }
switch (node.type) {
case 'Program': traverseArray(node.body, node); break;
case 'CallExpression': traverseArray(node.params, node); break;
case 'NumberLiteral': case 'StringLiteral': break;
default: throw new TypeError(node.type); }
if (methods && methods.exit) { methods.exit(node, parent); } }
traverseNode(ast, null); }
* ============================================================================ * ⁽(◍˃̵͈̑ᴗ˂̵͈̑)⁽ * 转换器(THE TRANSFORMER!!!) * ============================================================================ */
* 接下来是转换器。我们的转换器将获取我们构建的AST,并将其传递给具有访问者的遍历函数,并将创建一个新的AST。 * * ---------------------------------------------------------------------------- * Original AST | Transformed AST * ---------------------------------------------------------------------------- * { | { * type: 'Program', | type: 'Program', * body: [{ | body: [{ * type: 'CallExpression', | type: 'ExpressionStatement', * name: 'add', | expression: { * params: [{ | type: 'CallExpression', * type: 'NumberLiteral', | callee: { * value: '2' | type: 'Identifier', * }, { | name: 'add' * type: 'CallExpression', | }, * name: 'subtract', | arguments: [{ * params: [{ | type: 'NumberLiteral', * type: 'NumberLiteral', | value: '2' * value: '4' | }, { * }, { | type: 'CallExpression', * type: 'NumberLiteral', | callee: { * value: '2' | type: 'Identifier', * }] | name: 'subtract' * }] | }, * }] | arguments: [{ * } | type: 'NumberLiteral', * | value: '4' * ---------------------------------- | }, { * | type: 'NumberLiteral', * | value: '2' * | }] * (sorry the other one is longer.) | } * | } * | }] * | } * ---------------------------------------------------------------------------- */
function transformer(ast) {
let newAst = { type: 'Program', body: [], };
ast._context = newAst.body;
traverser(ast, {
NumberLiteral: { enter(node, parent) { parent._context.push({ type: 'NumberLiteral', value: node.value, }); }, },
StringLiteral: { enter(node, parent) { parent._context.push({ type: 'StringLiteral', value: node.value, }); }, },
CallExpression: { enter(node, parent) {
let expression = { type: 'CallExpression', callee: { type: 'Identifier', name: node.name, }, arguments: [], };
node._context = expression.arguments;
if (parent.type !== 'CallExpression') {
expression = { type: 'ExpressionStatement', expression: expression, }; }
parent._context.push(expression); }, } });
return newAst; }
* ============================================================================ * ヾ(〃^∇^)ノ♪ * 代码生成器(THE CODE GENERATOR!!!!) * ============================================================================ */
* 现在让我们进入最后一个阶段:代码生成器。 * * 我们的代码生成器将递归调用自身,将树中的每个节点打印到一个巨大的字符串中。 */
function codeGenerator(node) {
switch (node.type) {
case 'Program': return node.body.map(codeGenerator) .join('\n');
case 'ExpressionStatement': return ( codeGenerator(node.expression) + ';' );
case 'CallExpression': return ( codeGenerator(node.callee) + '(' + node.arguments.map(codeGenerator) .join(', ') + ')' );
case 'Identifier': return node.name;
case 'NumberLiteral': return node.value;
case 'StringLiteral': return '"' + node.value + '"';
default: throw new TypeError(node.type); } }
* ============================================================================ * (۶* ‘ヮ’)۶” * !!!!!!!!THE COMPILER!!!!!!!! * ============================================================================ */
* 最好!我们将创建我们的`编译器‘函数。在这里,我们将把上面的pipeline的每一部分连接起来。 * * 1. input => tokenizer => tokens * 2. tokens => parser => ast * 3. ast => transformer => newAst * 4. newAst => generator => output */
function compiler(input) { let tokens = tokenizer(input); let ast = parser(tokens); let newAst = transformer(ast); let output = codeGenerator(newAst);
return output; }
* ============================================================================ * (๑˃̵ᴗ˂̵)و * !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!完事!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! * ============================================================================ */
module.exports = { tokenizer, parser, traverser, transformer, codeGenerator, compiler, };
|