什么是虚拟机保护技术

jf_78858299 2023-02-14 731

电子说

1.3w人已加入

描述

****虚拟机概览

所谓虚拟机保护技术，是指将代码翻译为机器和人都无法识别的一串伪代码字节流；在具体执行时再对这些伪代码进行一一翻译解释，逐步还原为原始代码并执行。

这段用于翻译伪代码并负责具体执行的子程序就叫作虚拟机VM（好似一个抽象的CPU）。它以一个函数的形式存在，函数的参数就是字节码的内存地址。

将虚拟机应用到商业中的保护壳现有三款:Vmprotect，themida和 execrypt。

**** 虚拟机架构

我们知道，代码中的指令多种多样，组织形式也千变万化；虚拟机不可能针对每一种具体情况都进行翻译处理。必须对所有可能遇到的指令先进行抽象归类，然后分解为若干简单的小指令，再交由各个专门的子程序（handler）去处理。

学过编译原理的同学应该都知道三元式代码吧，也叫做3地址代码(three adress code)。即不论多么复杂的赋值公式，都可以分解为数个3地址代码式序列。（什么是3地址代码，1段3地址代码只完成1次运算，譬如1次二目运算、1次比较，或者1次分支跳转运算。）

与此类似，不论多么复杂的指令，都可以分解为一串不可再分割的原子指令序列。

虚拟机（CPU）的体系架构可分为3种，基于堆栈的(Stack based)，基于寄存器的(Register based)和3地址机器。我们只讲述基于堆栈的虚拟机架构(Stack based)；这种架构的虚拟机需要频繁操作堆栈，其使用的虚拟寄存器(虚拟的eax、ebx等等)保存在堆栈中；每个原子指令的handler都需要push、pop。

现在的CPU都有大量的寄存器，堆栈一般只是在函数传递参数时使用（譬如PC机用的x86系列CPU）。但也有一些CPU只操作内存，没有堆栈，也没有寄存器。使用这种CPU的机器称之为3地址机器。

基于堆栈的CPU或虚拟机没有临时变量、寄存器的概念，所有的东西都放入堆栈。由于指令中不需要指定操作数，所以其指令相对基于寄存器的要短。也因此相对简单，在嵌入式系统中运用较多。用于保护代码，我们也选择这种。

举例，譬如指令add,基于堆栈的CPU首先从堆栈里Pop两个数，然后将两数相加，再把和Push到堆栈。Add指令只占用1个字节。而基于寄存器的CPU对应指令为 add Reg1,Reg2，需要3个字节。请仔细想象一下没有寄存器的CPU，它的指令是怎样的，该会是多么简洁。当然，指令简洁带来的缺点就是效率低下。

我们这里谈的虚拟机保护技术，就是把基于寄存器的CPU代码，改造成基于堆栈的CPU的伪代码。然后再由基于堆栈的虚拟机(CPU)对伪代码解释执行。

**** 指令系统

关键在于设计一个虚拟的基于堆栈的虚拟机(CPU)的指令系统。这个指令系统越简洁，复用性越高越好。

还是以add 指令为例。X86系列CPU的add指令有许多格式，譬如：add reg,imm 、add reg,reg、add reg,mem、add mem,reg等等。而基于堆栈的虚拟机CPU则没有这么多花样，就一个单单的add指令，参数和返回都是在堆栈里。

我们需要为我们的虚拟机CPU模拟实现这样的add命令：