在通常情况下,编译器会将目标语言转换成某种中间语言格式,而不是直接将源代码转换成二进制机器指令,不少c语言编译器,都会将代码编译成汇编语言,然后再通过汇编语言编译器将汇编代码转换成目标机器可执行的二进制代码,这么说来,汇编语言其实也是一种中间语言,我来为大家科普一下关于语言顺序结构 中间语言格式?下面希望有你要的答案,我们一起来看看吧!
语言顺序结构 中间语言格式
在通常情况下,编译器会将目标语言转换成某种中间语言格式,而不是直接将源代码转换成二进制机器指令,不少c语言编译器,都会将代码编译成汇编语言,然后再通过汇编语言编译器将汇编代码转换成目标机器可执行的二进制代码,这么说来,汇编语言其实也是一种中间语言。
编译成中间语言有很多优势,意识可以优化,先把中间语言进行高度优化后,再将其转换为机器指令,那么程序运行的速度可以成倍地提高,其二是可以实现跨平台,针对同一种中间语言,不同平台的编译器可以将其转换成与该平台兼容的二进制指令,从而使得一种源程序代码可以运行到不同的硬件平台上。
还有一种好处是可以通过虚拟机来运行中间语言,从而突破硬件平台对语言的限制,例如JAVA字节码显然就是一种中间语言,运行在java虚拟机上,我们本章或许会将C语言转义成某种字节码,然后开发一个虚拟机来运行字节码,由此,接下来的重点,我们将聚焦到指令集以及虚拟机的架构设计上。
中间语言的格式:三元组、四元组、逆向波兰格式
中间语言的指令格式,一般如标题一样,对于大多数汇编语言采用的就是三元组形式,这种格式的指令一般包含三个部分:操作符,数据源,结果目标,例如指令:
ADD D0 D1
意思是将D0寄存器的数值和D1寄存器的数值相加,并把相加的结果放到D1寄存器,其实C语言也有等价的功能代码表示:
d =s
上面的语句用数学表示法如下:
( =,d,s)
三元组指令的格式又可以称为两地址指令,因为大多数指令都由原地址、目标地址。以及操作符构成。
四元组一般由四部分构成,两个数据源地址,一个操作符,一个目标地址,例如
d=s1 s2
数学化的表现形式如下:
( ,d,s1,s2)
有时候四元组指令并非bao'h你四部分,例如赋值语句:
(=,d,s,-)
第四部分的-,不是减号,而是横杠,标识这一部分为空,第一部分标识操作,不能为空,所以上面指令的意思是:
d=s;
无论是三元组还是四元组,有时候目标地址无需明确地包含在指令中,例如下面的两条三元组指令:
(LESS_THAN, a, b)
(GOTO, target, -)
第一条指令比较两个数大小,并且将比较的结构存放在某个地方,第二条指令的执行将依赖第一条指令的结果,如果第一条指令结果为true,那么第二条指令将使得程序流跳转到target指定的地址。
有时候算术运算的指令也不会涉及到目标地址,例如下面两条三元组语句执行A=B C
( , B, C)
(=, A, .-1)
第一条语句执行完加法后,把结果存储到一个内部寄存器叫加法寄存器
第二条三元组语句,第三部分,“.-1”表示上一条语句的地址,因此第二条语句的作用是把上一条语句的结果赋值给A
三元组相对于四元组有一个优势,就是它与大多数汇编语言的格式很接近,我们本章将代码编译后,所形成的中间语言采用三元组格式,但四元组也有三元组无法企及的好处,一是简练,例如( , d, s1, s2), 就需要两条三元组来完成同等功能:
(=, d, s1)
( =, d, s2)
此外,四元组相比于三元组,更容易进行优化,例如上面的两条三元组语句,在优化时,需要将它们当做一个整体对待,代码挪动时需要两条语句一起挪动,而四元组只要挪动一条语句就可以了。
第三种常用的中间语言格式是逆向波兰格式,PostScript, HP计算器,使用的中间代码就是这种格式。这种格式的语句比较容易解析,同时语句解析时不需要分配临时变量。例如表达式:
( 1 2 ) * (3 4)
对应的逆向波兰格式为:
1 2 3 4 *
逆向波兰表达式的解析需要一个堆栈, 例如上面语句的解析过程如下:
stack input action
empty 1 2 3 4 * push 1
1 2 3 4 * push 2
1 2 3 4 * 将栈顶两元素出栈相加,然后将相加的结果压入堆栈
3 3 4 * push 3
3 3 4 * push 4
3 3 4 * 将栈顶两元素出栈相加然,后将相加的结果压入堆栈
3 7 * 将栈顶两元素出栈相乘,然后将相乘的结果压入堆栈
21 栈顶元素就是计算结果
下一节我们将讲解我们编译器所使用的中间语言叫C-code以及运行c-code 的虚拟机架构设计。
,