软件开发平台及语言笔记大全(超详细)

設計

本章是「手把手教你構建 C 語言編譯器」系列的第二篇，我們要從整體上講解如何設計我們的 C 語言編譯器。

首先要說明的是，雖然標題是編譯器，但實際上我們構建的是 C 語言的解釋器，這意味著我們可以像運行腳本一樣去運行 C 語言的源代碼文件。這麼做的理由有兩點：

解釋器與編譯器僅在代碼生成階段有區別，而其它方面如詞法分析、語法分析是一樣的。
解釋器需要我們實現自己的虛擬機與指令集，而這部分能幫助我們瞭解計算機的工作原理。

編譯器的構建流程

一般而言，編譯器的編寫分為 3 個步驟：

詞法分析器，用於將字符串轉化成內部的表示結構。
語法分析器，將詞法分析得到的標記流（token）生成一棵語法樹。
目標代碼的生成，將語法樹轉化成目標代碼。

已經有許多工具能幫助我們處理階段1和2，如 flex 用於詞法分析，bison 用於語法分析。只是它們的功能都過於強大，屏蔽了許多實現上的細節，對於學習構建編譯器幫助不大。所以我們要完全手寫這些功能。

所以我們會根據下面的流程：

構建我們自己的虛擬機以及指令集。這後生成的目標代碼便是我們的指令集。
構建我們的詞法分析器
構建語法分析器

編譯器的框架

我們的編譯器主要包括 4 個函數：

next() 用於詞法分析，獲取下一個標記，它將自動忽略空白字符。
program() 語法分析的入口，分析整個 C 語言程序。
expression(level) 用於解析一個表達式。
eval() 虛擬機的入口，用於解釋目標代碼。

這裡有一個單獨用於解析「表達式」的函數 expression 是因為表達式在語法分析中相對獨立並且比較複雜，所以我們將它單獨作為一個模塊（函數）。

因為我們的源代碼看起來就像是：

#include <stdio.h>
#include <stdlib.h>
#include <memory.h>
#include <string.h>

int token;            // current token
char *src, *old_src;  // pointer to source code string;
int poolsize;         // default size of text/data/stack
int line;             // line number

void next() {
    token = *src++;
    return;
}

void expression(int level) {
    // do nothing
}

void program() {
    next();                  // get next token
    while (token > 0) {
        printf("token is: %c\n", token);
        next();
    }
}


int eval() { // do nothing yet
    return 0;
}

int main(int argc, char **argv)
{
    int i, fd;

    argc--;
    argv++;

    poolsize = 256 * 1024; // arbitrary size
    line = 1;

    if ((fd = open(*argv, 0)) < 0) {
        printf("could not open(%s)\n", *argv);
        return -1;
    }

    if (!(src = old_src = malloc(poolsize))) {
        printf("could not malloc(%d) for source area\n", poolsize);
        return -1;
    }

    // read the source file
    if ((i = read(fd, src, poolsize-1)) <= 0) {
        printf("read() returned %d\n", i);
        return -1;
    }
    src[i] = 0; // add EOF character
    close(fd);

    program();
    return eval();
}

上面的代碼看上去挺複雜，但其實內容不多，就是讀取一個源代碼文件，逐個讀取每個字符，並輸出每個字符。這裡重要的是注意每個函數的作用，後面的文章中，我們將逐個填充每個函數的功能，最終構建起我們的編譯器。

本節的代碼可以在 Github 上下載，也可以直接 clone

书籍推荐

Linux 内核揭密

tzivanmoe • linux • 86页 • 2018年7月1日

2

Linux命令大全搜索工具

jaywcjlove • linux • 30页 • 2021年10月24日

笨办法学 Linux

wizardforcel • linux • 34页 • 2018年5月3日

326

写给人类的机器学习

gaolinjie • machine-learning • 10页 • 2018年7月8日

29

前端开发规范手册

Aaaaaashu • javascript • css3 • html5 • 20页 • 2018年6月8日

693

简明Excel VBA

Youchien • code • visualstudio • 53页 • 2019年3月24日

10