cpu是什么?cpu是什么意思?

黄汉华 2012-08-28 113175

电子常识

2640人已加入

描述

　　电子发烧友网讯：最近听到不少用户询问cpu是什么?cpu是什么意思?cpu其实是中央处理器的简称，cpu是计算机控制的核心。

　　什么是CPU

　　CPU是电脑系统的心脏，电脑特别是微型电脑的快速发展过程，实质上就是CPU从低级向高级、从简单向复杂发展的过程。

　　一、CPU的概念

　　CPU(Central Processing Unit)又叫中央处理器，其主要功能是进行运算和逻辑运算，内部结构大概可以分为控制单元、算术逻辑单元和存储单元等几个部分。按照其处理信息的字长可以分为：八位微处理器、十六位微处理器、三十二位微处理器以及六十四位微处理器等等。

　　二、CPU主要的性能指标

　　主频：
即CPU内部核心工作的时钟频率，单位一般是兆赫兹(MHz)。这是我们平时无论是使用还是购买计算机都最关心的一个参数，我们通常所说的133、166、450等就是指它。对于同种类的CPU，主频越高，CPU的速度就越快，整机的性能就越高。

　　外频和倍频数：
外频即CPU的外部时钟频率。外频是由电脑主板提供的，CPU的主频与外频的关系是：CPU主频=外频×倍频数。

　　前端总线(FSB)频率

　　前端总线(FSB)频率(即总线频率)是直接影响CPU与内存直接数据交换速度。有一条公式可以计算，即数据带宽=(总线频率×数据位宽)/8，数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。比方，现在的支持64位的至强Nocona，前端总线是800MHz，按照公式，它的数据传输最大带宽是6.4GB/秒。

　　外频与前端总线(FSB)频率的区别：前端总线的速度指的是数据传输的速度，外频是CPU与主板之间同步运行的速度。也就是说，100MHz外频特指数字脉冲信号在每秒钟震荡一亿次;而100MHz前端总线指的是每秒钟CPU可接受的数据传输量是100MHz×64bit÷8bit/Byte=800MB/s。

　　其实现在“HyperTransport”构架的出现，让这种实际意义上的前端总线(FSB)频率发生了变化。IA-32架构必须有三大重要的构件：内存控制器Hub (MCH),I/O控制器Hub和PCI Hub，像Intel很典型的芯片组Intel 7501.Intel7505芯片组，为双至强处理器量身定做的，它们所包含的MCH为CPU提供了频率为533MHz的前端总线，配合DDR内存，前端总线带宽可达到4.3GB/秒。但随着处理器性能不断提高同时给系统架构带来了很多问题。而“HyperTransport”构架不但解决了问题，而且更有效地提高了总线带宽，比方AMD Opteron处理器，灵活的HyperTransport I/O总线体系结构让它整合了内存控制器，使处理器不通过系统总线传给芯片组而直接和内存交换数据。这样的话，前端总线(FSB)频率在AMD Opteron处理器就不知道从何谈起了。

　　缓存

　　缓存大小也是CPU的重要指标之一，而且缓存的结构和大小对CPU速度的影响非常大，CPU内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘。实际工作时，CPU往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升CPU内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能。但是由于CPU芯片面积和成本的因素来考虑，缓存都很小。

　　L1　Cache(一级缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32-256KB。

　　L2　Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。L2高速缓存容量也会影响CPU的性能，原则是越大越好，以前家庭用CPU容量最大的是512KB，现在笔记本电脑中也可以达到2M，而服务器和工作站上用CPU的L2高速缓存更高，可以达到8M以上。

　　L3　Cache(三级缓存)，分为两种，早期的是外置，现在的都是内置的。而它的实际作用即是，L3缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能。降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加L3缓存在性能方面仍然有显著的提升。比方具有较大L3缓存的配置利用物理内存会更有效，故它比较慢的磁盘I/O子系统可以处理更多的数据请求。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

　　其实最早的L3缓存被应用在AMD发布的K6-III处理器上，当时的L3缓存受限于制造工艺，并没有被集成进芯片内部，而是集成在主板上。在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。接着就是P4EE和至强MP。Intel还打算推出一款9MB L3缓存的Itanium2处理器，和以后24MB L3缓存的双核心Itanium2处理器。

　　但基本上L3缓存对处理器的性能提高显得不是很重要，比方配备1MB L3缓存的Xeon MP处理器却仍然不是Opteron的对手，由此可见前端总线的增加，要比缓存增加带来更有效的性能提升。

　　CPU扩展指令集

　　CPU依靠指令来自计算和控制系统，每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标，指令集是提高微处理器效率的最有效工具之一。

　　从现阶段的主流体系结构讲，指令集可分为复杂指令集和精简指令集两部分(指令集共有四个种类)，而从具体运用看，如Intel的MMX(Multi Media Extended，此为AMD猜测的全称，Intel并没有说明词源)、SSE、SSE2(Streaming-Single instruction multiple data-Extensions 2)、SSE3、SSE4系列和AMD的3DNow!等都是CPU的扩展指令集，分别增强了CPU的多媒体、图形图象和Internet等的处理能力。

　　通常会把CPU的扩展指令集称为”CPU的指令集”。SSE3指令集也是目前规模最小的指令集，此前MMX包含有57条命令，SSE包含有50条命令，SSE2包含有144条命令，SSE3包含有13条命令。

　　CPU内核和I/O工作电压

　　从586CPU开始，CPU的工作电压分为内核电压和I/O电压两种，通常CPU的核心电压小于等于I/O电压。其中内核电压的大小是根据CPU的生产工艺而定，一般制作工艺越小，内核工作电压越低;I/O电压一般都在1.6~5V。低电压能解决耗电过大和发热过高的问题。

　　内部缓存：
采用速度极快的SRAM制作，用于暂时存储CPU运算时的最近的部分指令和数据，存取速度与CPU主频相同，内部缓存的容量一般以KB为单位。当它全速工作时，其容量越大，使用频率最高的数据和结果就越容易尽快进入CPU进行运算，CPU工作时与存取速度较慢的外部缓存和内存间交换数据的次数越少，相对电脑的运算速度可以提高。

　　地址总线宽度：
地址总线宽度决定了CPU可以访问的物理地址空间，简单地说就是CPU到底能够使用多大容量的内存。

　　多媒体扩展指令集(MMX)技术：MMX是Intel公司为增强Pentium CPU 在音像、图形和通信应用方面而采取的新技术。这一技术为CPU增加了全新的57条MMX指令，这些加了MMX指令的 CPU比普通CPU在运行含有MMX指令的程序时，处理多媒体的能力上提高了60%左右。即使不使用MMX指令的程序，也能获得15%左右的性能提升。

　　微处理器在多方面改变了我们的生活，现在认为理所当然的事，在以前却是难以想象的。六十年代计算机大得可充满整个房间，只有很少的人能使用它们。六十年代中期集成电路的发明使电路的小型化得以在一块单一的硅片上实现，为微处理器的发展奠定了基础。在可预见的未来，CPU的处理能力将继续保持高速增长，小型化、集成化永远是发展趋势，同时会形成不同层次的产品，也包括专用处理器。

　　CPU的功能

　　计算机求解问题是通过执行程序来实现的。程序是由指令构成的序列，执行程序就是按指令序列逐条执行指令。一旦把程序装入主存储器(简称主存)中，就可以由CPU自动地完成从主存取指令和执行指令的任务。

　　CPU具有以下4个方面的基本功能：

　　1. 指令顺序控制

　　这是指控制程序中指令的执行顺序。程序中的各指令之间是有严格顺序的，必须严格按程序规定的顺序执行，才能保证计算机工作的正确性。

　　2. 操作控制

　　一条指令的功能往往是由计算机中的部件执行一序列的操作来实现的。CPU要根据指令的功能，产生相应的操作控制信号，发给相应的部件，从而控制这些部件按指令的要求进行动作。

　　3. 时间控制

　　时间控制就是对各种操作实施时间上的定时。在一条指令的执行过程中，在什么时间做什么操作均应受到严格的控制。只有这样，计算机才能有条不紊地自动工作。

　　4. 数据加工

　　即对数据进行算术运算和逻辑运算，或进行其他的信息处理。

　　工作原理　
　CPU从存储器或高速缓冲存储器中取出指令，放入指令寄存器，并对指令译码。它把指令分解成一系列的微操作，然后发出各种控制命令，执行微操作系列，从而完成一条指令的执行。

　　指令是计算机规定执行操作的类型和操作数的基本命令。指令是由一个字节或者多个字节组成，其中包括操作码字段、一个或多个有关操作数地址的字段以及一些表征机器状态的状态字以及特征码。有的指令中也直接包含操作数本身。

　　提取

　　第一阶段，提取，从存储器或高速缓冲存储器中检索指令(为数值或一系列数值)。由程序计数器(Program Counter)指定存储器的位置，程序计数器保存供识别目前程序位置的数值。换言之，程序计数器记录了CPU在目前程序里的踪迹。

　　提取指令之后，程序计数器根据指令长度增加存储器单元。指令的提取必须常常从相对较慢的存储器寻找，因此导致CPU等候指令的送入。这个问题主要被论及在现代处理器的快取和管线化架构。

　　解码

　　CPU根据存储器提取到的指令来决定其执行行为。在解码阶段，指令被拆解为有意义的片断。根据CPU的指令集架构(ISA)定义将数值解译为指令。一部分的指令数值为运算码(Opcode)，其指示要进行哪些运算。其它的数值通常供给指令必要的信息，诸如一个加法(Addition)运算的运算目标。这样的运算目标也许提供一个常数值(即立即值)，或是一个空间的定址值：暂存器或存储器位址，以定址模式决定。在旧的设计中，CPU里的指令解码部分是无法改变的硬件设备。不过在众多抽象且复杂的CPU和指令集架构中，一个微程序时常用来帮助转换指令为各种形态的讯号。这些微程序在已成品的CPU中往往可以重写，方便变更解码指令。

　　执行

　　在提取和解码阶段之后，接着进入执行阶段。该阶段中，连接到各种能够进行所需运算的CPU部件。

　　例如，要求一个加法运算，算术逻辑单元(ALU，Arithmetic Logic Unit)将会连接到一组输入和一组输出。输入提供了要相加的数值，而输出将含有总和的结果。ALU内含电路系统，易于输出端完成简单的普通运算和逻辑运算(比如加法和位元运算)。如果加法运算产生一个对该CPU处理而言过大的结果，在标志暂存器里，运算溢出(Arithmetic Overflow)标志可能会被设置。

　　写回

　　最终阶段，写回，以一定格式将执行阶段的结果简单的写回。运算结果经常被写进CPU内部的暂存器，以供随后指令快速存取。在其它案例中，运算结果可能写进速度较慢，但容量较大且较便宜的主记忆体中。某些类型的指令会操作程序计数器，而不直接产生结果。这些一般称作“跳转”(Jumps)，并在程式中带来循环行为、条件性执行(透过条件跳转)和函式。许多指令会改变标志暂存器的状态位元。这些标志可用来影响程式行为，缘由于它们时常显出各种运算结果。例如，以一个“比较”指令判断两个值大小，根据比较结果在标志暂存器上设置一个数值。这个标志可藉由随后跳转指令来决定程式动向。在执行指令并写回结果之后，程序计数器值会递增，反覆整个过程，下一个指令周期正常的提取下一个顺序指令。如果完成的是跳转指令，程序计数器将会修改成跳转到的指令位址，且程序继续正常执行。许多复杂的CPU可以一次提取多个指令、解码，并且同时执行。这个部分一般涉及“经典RISC管线”，那些实际上是在众多使用简单CPU的电子装置中快速普及(常称为微控制(Microcontrollers))。

　　基本结构　　
CPU包括运算逻辑部件、寄存器部件和控制部件等。

　　运算逻辑部件

　　运算逻辑部件，可以执行定点或浮点算术运算操作、移位操作以及逻辑操作，也可执行地址运算和转换。

　　寄存器部件

　　寄存器部件，包括通用寄存器、专用寄存器和控制寄存器。

　　32位CPU的寄存器　
　通用寄存器又可分定点数和浮点数两类，它们用来保存指令中的寄存器操作数和操作结果。

　　通用寄存器是中央处理器的重要组成部分，大多数指令都要访问到通用寄存器。通用寄存器的宽度决定计算机内部的数据通路宽度，其端口数目往往可影响内部操作的并行性。

　　专用寄存器是为了执行一些特殊操作所需用的寄存器。

　　控制寄存器通常用来指示机器执行的状态，或者保持某些指针，有处理状态寄存器、地址转换目录的基地址寄存器、特权状态寄存器、条件码寄存器、处理异常事故寄存器以及检错寄存器等。

　　有的时候，中央处理器中还有一些缓存，用来暂时存放一些数据指令，缓存越大，说明CPU的运算速度越快，目前市场上的中高端中央处理器都有2M左右的二级缓存，高端中央处理器有4M左右的二级缓存。

　　控制部件

　　控制部件，主要负责对指令译码，并且发出为完成每条指令所要执行的各个操作的控制信号。

　　其结构有两种：一种是以微存储为核心的微程序控制方式;一种是以逻辑硬布线结构为主的控制方式。

　　微存储中保持微码，每一个微码对应于一个最基本的微操作，又称微指令;各条指令是由不同序列的微码组成，这种微码序列构成微程序。中央处理器在对指令译码以后，即发出一定时序的控制信号，按给定序列的顺序以微周期为节拍执行由这些微码确定的若干个微操作，即可完成某条指令的执行。

　　简单指令是由(3～5)个微操作组成，复杂指令则要由几十个微操作甚至几百个微操作组成。

　　逻辑硬布线控制器则完全是由随机逻辑组成。指令译码后，控制器通过不同的逻辑门的组合，发出不同序列的控制时序信号，直接去执行一条指令中的各个操作。

　　技术架构制造工艺

　　制造工艺的微米是指IC内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展。密度愈高的IC电路设计，意味着在同样大小面积的IC中，可以拥有密度更高、功能更复杂的电路设计。现在主要的180nm、130nm、90nm、65nm、45纳米。intel已经于2010年发布32纳米的制造工艺的酷睿i3/酷睿i5/酷睿i7系列。并且已有发布22nm与15nm产品的计划。而AMD则表示、自己的产品将会直接跳过32nm工艺(2010年第三季度生产少许32nm产品、如Orochi、Llano)于2011年中期初发布28nm的产品(APU)

　　指令集

　　⑴CISC指令集

　　CISC指令集，也称为复杂指令集，英文名是CISC，(Complex Instruction Set Computer的缩写)。在CISC微处理器中，程序的各条指令是按顺序串行执行的，每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢。其实它是英特尔生产的x86系列(也就是IA-32架构)CPU及其兼容CPU，如AMD、VIA的。即使是现在新起的X86-64(也说成AMD64)都是属于CISC的范畴。

　　要知道什么是指令集还要从当今的X86架构的CPU说起。X86指令集是Intel为其第一块16位CPU(i8086)专门开发的，IBM1981年推出的世界第一台PC机中的CPU-i8088(i8086简化版)使用的也是X86指令，同时电脑中为提高浮点数据处理能力而增加了X87芯片，以后就将X86指令集和X87指令集统称为X86指令集。

　　虽然随着CPU技术的不断发展，Intel陆续研制出更新型的i80386.i80486直到过去的PII至强、PIII至强、Pentium 3，Pentium 4系列，最后到今天的酷睿2系列、至强(不包括至强Nocona)，但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源，所以Intel公司所生产的所有CPU仍然继续使用X86指令集，所以它的CPU仍属于X86系列。由于Intel X86系列及其兼容CPU(如AMD Athlon MP、)都使用X86指令集，所以就形成了今天庞大的X86系列及兼容CPU阵容。x86CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。

　　⑵RISC指令集

　　RISC是英文“Reduced Instruction Set Computing ”的缩写，中文意思是“精简指令集”。它是在CISC指令系统基础上发展起来的，有人对CISC机进行测试表明，各种指令的使用频度相当悬殊，最常使用的是一些比较简单的指令，它们仅占指令总数的20%，但在程序中出现的频度却占80%。复杂的指令系统必然增加微处理器的复杂性，使处理器的研制时间长，成本高。并且复杂指令需要复杂的操作，必然会降低计算机的速度。基于上述原因，20世纪80年代RISC型CPU诞生了，相对于CISC型CPU,RISC型CPU不仅精简了指令系统，还采用了一种叫做“超标量和超流水线结构”，大大增加了并行处理能力。RISC指令集是高性能CPU的发展方向。它与传统的CISC(复杂指令集)相对。相比而言，RISC的指令格式统一，种类比较少，寻址方式也比复杂指令集少。当然处理速度就提高很多了。目前在中高档服务器中普遍采用这一指令系统的CPU，特别是高档服务器全都采用RISC指令系统的CPU。RISC指令系统更加适合高档服务器的操作系统UNIX，现在Linux也属于类似UNIX的操作系统。RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。

　　目前，在中高档服务器中采用RISC指令的CPU主要有以下几类：PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器。

　　⑶IA-64

　　EPIC(Explicitly Parallel Instruction Computers，精确并行指令计算机)是否是RISC和CISC体系的继承者的争论已经有很多，单以EPIC体系来说，它更像Intel的处理器迈向RISC体系的重要步骤。从理论上说，EPIC体系设计的CPU，在相同的主机配置下，处理Windows的应用软件比基于Unix下的应用软件要好得多。

　　Intel采用EPIC技术的服务器CPU是安腾Itanium(开发代号即Merced)。它是64位处理器，也是IA-64系列中的第一款。微软也已开发了代号为Win64的操作系统，在软件上加以支持。在Intel采用了X86指令集之后，它又转而寻求更先进的64-bit微处理器，Intel这样做的原因是，它们想摆脱容量巨大的x86架构，从而引入精力充沛而又功能强大的指令集，于是采用EPIC指令集的IA-64架构便诞生了。IA-64 在很多方面来说，都比x86有了长足的进步。突破了传统IA32架构的许多限制，在数据的处理能力，系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高。

　　IA-64微处理器最大的缺陷是它们缺乏与x86的兼容，而Intel为了IA-64处理器能够更好地运行两个朝代的软件，它在IA-64处理器上(Itanium、Itanium2 ……)引入了x86-to-IA-64的解码器，这样就能够把x86指令翻译为IA-64指令。这个解码器并不是最有效率的解码器，也不是运行x86代码的最好途径(最好的途径是直接在x86处理器上运行x86代码)，因此Itanium 和Itanium2在运行x86应用程序时候的性能非常糟糕。这也成为X86-64产生的根本原因。

　　超流水线与超标量

　　在解释超流水线与超标量前，先了解流水线(Pipeline)。流水线是Intel首次在486芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在CPU中由5-6个不同功能的电路单元组成一条指令处理流水线，然后将一条X86指令分成5-6步后再由这些电路单元分别执行，这样就能实现在一个CPU时钟周期完成一条指令，因此提高CPU的运算速度。经典奔腾每条整数流水线都分为四级流水，即指令预取、译码、执行、写回结果，浮点流水又分为八级流水。超标量是通过内置多条流水线来同时执行多个处理器，其实质是以空间换取时间。而超流水线是通过细化流水、提高主频，使得在一个机器周期内完成一个甚至多个操作，其实质是以时间换取空间。例如Pentium 4的流水线就长达20级。将流水线设计的步(级)越长，其完成一条指令的速度越快，因此才能适应工作主频更高的CPU。但是流水线过长也带来了一定副作用，很可能会出现主频较高的CPU实际运算速度较低的现象，Intel的奔腾4就出现了这种情况，虽然它的主频可以高达1.4G以上，但其运算性能却远远比不上AMD 1.2G的速龙甚至奔腾III。

　　封装形式

　　CPU封装是采用特定的材料将CPU芯片或CPU模块固化在其中以防损坏的保护措施，一般必须在封装后CPU才能交付用户使用。CPU的封装方式取决于CPU安装形式和器件集成设计，从大的分类来看通常采用Socket插座进行安装的CPU使用PGA(栅格阵列)方式封装，而采用Slot x槽安装的CPU则全部采用SEC(单边接插盒)的形式封装。现在还有PLGA(Plastic Land Grid Array)、OLGA(Organic Land Grid Array)等封装技术。由于市场竞争日益激烈，目前CPU封装技术的发展方向以节约成本为主。

　　多线程

　　同时多线程Simultaneous Multithreading，简称SMT。SMT可通过复制处理器上的结构状态，让同一个处理器上的多个线程同步执行并共享处理器的执行资源，可最大限度地实现宽发射、乱序的超标量处理，提高处理器运算部件的利用率，缓和由于数据相关或Cache未命中带来的访问内存延时。当没有多个线程可用时，SMT处理器几乎和传统的宽发射超标量处理器一样。SMT最具吸引力的是只需小规模改变处理器核心的设计，几乎不用增加额外的成本就可以显著地提升效能。多线程技术则可以为高速的运算核心准备更多的待处理数据，减少运算核心的闲置时间。这对于桌面低端系统来说无疑十分具有吸引力。Intel从3.06GHz Pentium 4开始，所有处理器都将支持SMT技术。

　　多核心

　　多核心，也指单芯片多处理器(Chip Multiprocessors，简称CMP)。CMP是由美国斯坦福大学提出的，其思想是将大规模并行处理器中的SMP(对称多处理器)集成到同一芯片内，各个处理器并行执行不同的进程。与CMP比较，SMT处理器结构的灵活性比较突出。但是，当半导体工艺进入0.18微米以后，线延时已经超过了门延迟，要求微处理器的设计通过划分许多规模更小、局部性更好的基本单元结构来进行。相比之下，由于CMP结构已经被划分成多个处理器核来设计，每个核都比较简单，有利于优化设计，因此更有发展前途。目前，IBM 的Power 4芯片和Sun的MAJC5200芯片都采用了CMP结构。多核处理器可以在处理器内部共享缓存，提高缓存利用率，同时简化多处理器系统设计的复杂度。但这并不是说明，核心越多，性能越高，比如说16核的CPU就没有8核的CPU运算速度快，因为核心太多，而不能合理进行分配，所以导致运算速度减慢。在买电脑时请酌情选择。2005年下半年，Intel和AMD的新型处理器也将融入CMP结构。新安腾处理器开发代码为Montecito，采用双核心设计，拥有最少18MB片内缓存，采取90nm工艺制造。它的每个单独的核心都拥有独立的L1，L2和L3 cache，包含大约10亿支晶体管。

　　SMP

　　SMP(Symmetric Multi-Processing)，对称多处理结构的简称，是指在一个计算机上汇集了一组处理器(多CPU)，各CPU之间共享内存子系统以及总线结构。在这种技术的支持下，一个服务器系统可以同时运行多个处理器，并共享内存和其他的主机资源。像双至强，也就是所说的二路，这是在对称处理器系统中最常见的一种(至强MP可以支持到四路，AMD Opteron可以支持1-8路)。也有少数是16路的。但是一般来讲，SMP结构的机器可扩展性较差，很难做到100个以上多处理器，常规的一般是8个到16个，不过这对于多数的用户来说已经够用了。在高性能服务器和工作站级主板架构中最为常见，像UNIX服务器可支持最多256个CPU的系统。

　　构建一套SMP系统的必要条件是：支持SMP的硬件包括主板和CPU;支持SMP的系统平台，再就是支持SMP的应用软件。为了能够使得SMP系统发挥高效的性能，操作系统必须支持SMP系统，如WINNT、LINUX、以及UNIX等等32位操作系统。即能够进行多任务和多线程处理。多任务是指操作系统能够在同一时间让不同的CPU完成不同的任务;多线程是指操作系统能够使得不同的CPU并行的完成同一个任务。

　　要组建SMP系统，对所选的CPU有很高的要求，首先、CPU内部必须内置APIC(Advanced Programmable Interrupt Controllers)单元。Intel 多处理规范的核心就是高级可编程中断控制器(Advanced Programmable Interrupt Controllers–APICs)的使用;再次，相同的产品型号，同样类型的CPU核心，完全相同的运行频率;最后，尽可能保持相同的产品序列编号，因为两个生产批次的CPU作为双处理器运行的时候，有可能会发生一颗CPU负担过高，而另一颗负担很少的情况，无法发挥最大性能，更糟糕的是可能导致死机。

　　NUMA技术

　　NUMA即非一致访问分布共享存储技术，它是由若干通过高速专用网络连接起来的独立节点构成的系统，各个节点可以是单个的CPU或是SMP系统。在NUMA中，Cache 的一致性有多种解决方案，一般采用硬件技术实现对cache的一致性维护，通常需要操作系统针对NUMA访存不一致的特性(本地内存和远端内存访存延迟和带宽的不同)进行特殊优化以提高效率，或采用特殊软件编程方法提高效率。NUMA系统的例子。这里有3个SMP模块用高速专用网络联起来，组成一个节点，每个节点可以有12个CPU。像Sequent的系统最多可以达到64个CPU甚至256个CPU。显然，这是在SMP的基础上，再用NUMA的技术加以扩展，是这两种技术的结合。

　　乱序执行技术

　　乱序执行(out-of-orderexecution)，是指CPU允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后，将能提前执行的指令立即发送给相应电路单元执行，在这期间不按规定顺序执行指令，然后由重新排列单元将各执行单元结果按指令顺序重新排列。采用乱序执行技术的目的是为了使CPU内部电路满负荷运转并相应提高了CPU的运行程序的速度。

　　分枝技术

　　(branch)指令进行运算时需要等待结果，一般无条件分枝只需要按指令顺序执行，而条件分枝必须根据处理后的结果，再决定是否按原先顺序进行。

　　CPU内部的内存控制器

　　许多应用程序拥有更为复杂的读取模式(几乎是随机地，特别是当cache hit不可预测的时候)，并且没有有效地利用带宽。典型的这类应用程序就是业务处理软件，即使拥有如乱序执行(out of order execution)这样的CPU特性，也会受内存延迟的限制。这样CPU必须得等到运算所需数据被除数装载完成才能执行指令(无论这些数据来自CPU cache还是主内存系统)。当前低段系统的内存延迟大约是120-150ns，而CPU速度则达到了3GHz以上，一次单独的内存请求可能会浪费200-300次CPU循环。即使在缓存命中率(cache hit rate)达到99%的情况下，CPU也可能会花50%的时间来等待内存请求的结束-比如因为内存延迟的缘故。

　　在处理器内部整合内存控制器，使得北桥芯片将变得不那么重要，改变了处理器访问主存的方式，有助于提高带宽、降低内存延时和提升处理器性制造工艺：Intel的I5可以达到32纳米，在将来的CPU制造工艺可以达到22纳米。

打开APP阅读更多精彩内容