许多嵌入式处理器都宣称它们的功耗最低。但是事实上没有一颗元件能在所有的应用中保持最低功耗,因为低功耗的定义与应用环境习习相关,适合某种应用的晶片设计很可能会给另一种应用带来难题。可携式应用多半是根据电池寿命来定义低功耗,这类应用的功能相当广泛,操作模式也千变万化。电信系统元件若要满足应用电源需求,就必须在功率预算范围内处理所要求的通道数目,同时透过封装和电路板将功耗散逸,以确保元件保持在额定温度范围内;另外,这些基础设施应用也很重视最大负载条件下的功耗。因此,为了达到功耗要求,DSP供应商会针对目标应用选择最合适的元件制程、电路设计、电压和频率操作点以及整体架构。
省电技术 DSP供应商有许多技术可以用来降低功耗,并且达成效能目标,包括:
●选择适当制程;
●电晶体设计技术;
●选择正确的操作频率和电压;
●选择正确的架构,包括整合度、记忆体架构和运算处理单元;
●採用散热效率很高的封装,确保元件保持在特定操作温度范围内。
功耗来源 无论应用为何,元件功耗都包含下面几种来源:
漏电功耗(leakage power) 元件的漏电功耗为固定值,不受处理器动作或操作频率影响,但会随着制程、操作电压和温度而改变。低精密度(low geometry)制程的漏电功耗多半会跟着电压和温度而呈指数增加。
时脉功耗(clocking power) 元件的时脉功耗与时脉频率成正比。高整合度元件的晶片面积多半用于记忆体或暂存器等同步组件,如果时脉架构设计不良,那么无论元件实际工作量多寡,其功耗都会保持不变。
操作功耗(active power) 与元件当时所执行的实际系统功能有关。
除了上述来源之外,元件功耗还会受到两大因素影响:
元件电流 元件电流越高,电池电力的消耗速度就越快,有时还会超出功率预算范围而导致供应电压下降,使元件脱离正常操作区而造成错误。
元件/系统温度升高 元件若无法有效散热,其温度就可能超出额定范围而造成操作错误。
下列最佳化技术会以不同方式解决前述各种功耗问题。
选择适当制程 为了使不同应用的效能和功耗达到最佳化,德州仪器(TI)能提供各种制程类型,例如TI的130奈米低漏电制程在1.5V操作时几乎没有漏电流,对于DSP多半处于闲置状态的可携式应用而言,这种低漏电制程就能帮助它们节省功耗。另一种高效能制程的漏电流较大,却能在1.2V下操作,採用该制程的元件可以达到低漏电制程的两倍MHz效能。在较重视最大操作功耗(fully-active power)的基础设施应用里,这种高效能制程的竞争力还胜过低漏电制程,原因有两点:首先,低漏电运算处理单元的操作频率只有高效能制程的一半,这表示其数量必须加倍才能提供同样效能,但这会导致元件成本提高。其次,由于功耗与电压平方成正比,故在其他条件相同的情形下,高效能制程的操作功耗只有低漏电制程的(1.2V/1.5V)2或是64%。由于低操作功耗对于基础设施应用的重要性通常会超过低漏电功耗,因此高效能制程就成为这类应用的最佳选择。
电晶体设计 同样制程的电晶体也可以有不同的开关临界电压(VT),例如低VT电晶体的切换速度较快,高VT电晶体的漏电流则较小,晶片只需在会影响速度的部份使用低VT电晶体,其它电路则採用高VT电晶体以节省电力。设计人员的元件资料库应包含高VT和低VT电晶体所构成的基本逻辑闸(NAND、NOR和INVERT等),他们有时还会使用中间临界电压(middle-VT)的电晶体。一般说来,除非为了满足重要的效能要求,否则应尽量使用高VT电晶体组成的逻辑闸。
元件操作点:电压和频率
数种元件时脉供应方式可以节省功耗:
●多时脉域(multiple clock domain);
●动态频率调整(dynamic frequency scaling);
●时脉闸控(clock gating)。
除了时脉,调整电压也能降低功耗:
●静态电压调整;
●动态电压/频率调整;
●多电压域(multiple voltage domain)。
多时脉域 时脉域是元件中使用同一个时脉频率的部份。将晶片电路分成多个时脉域可以让每个部份以最适当的速度操作,进而节省电力。例如高效能DSP可能需要以1GHz操作,但连接至立体声编码解码器界面的串列埠却只需12MHz的速度。虽然多时脉域设计还需要同步电路和桥接电路让讯号跨越不同的时脉域,其能大幅降低整体功耗。
频率调整 元件的某些时脉域在不同时间可能会有不同的操作需求,例如处理器若在某段时间只有10%的运算需求,那么将时脉频率减为平常的1/10就能大幅降低时脉功耗。动态时脉调整电路的设计必须非常小心,以确保同步逻辑电路收到稳定而不会跳动的最小负载週期时脉。频率调整对于使用电池的应用最有帮助。
时脉闸控
时脉闸控会切断闲置电路的时脉,其中又以睡眠模式的做法最简单,它让使用者利用软体关掉晶片部份电路。其它技术则自动将元件某些部份的时脉关掉,直到有需要时再启动,例如乙太网路的媒体存取控制器(MAC)平常可处于睡眠模式,等到它侦测到网路后才开始工作。时脉闸控也和频率调整一样适合所有使用电池的应用。
静态电压调整 若应用的效能需求较低,元件也可在较低电压下操作。举例来说,若DSP是在1.2V电压下以720 MHz速率工作,它也能使用1.1V电压并以600MHz频率操作。由于功耗与电压平方成正比,在1.1V电压下以600MHz速率操作的功耗只有720MHz功耗的(1.1V/1.2V)2,大约是84%左右。另外,操作功耗也会因为时脉频率降低而减少两成。
动态电压/频率调整 这种技术让电压随着频率而减少以进一步节省功耗。频率的切换同样必须非常小心,元件应先将时脉切断,然后才改变操作电压。动态电压
/频率调整技术非常适合可携式应用。
电压域 多域的观念同样适用于电压,设计人员可以根据效能需求将晶片分成多个部份,而每个部份使用不同的电压。由于不同的电压域必须以隔离电路分开,保护它们不受其它电压域的损害,因此这种技术用于设计时必须相当谨慎。它们还必须提供转换电路,用来转换跨越不同电压域的讯号。多电压域需要多组电源,然而晶片内建稳压器的效率通常都比不上电路板层级的电源供应器,因此这类设计多半需要由电路板供应多组电源,这正是多电压域技术的缺点之一:因为电路板需要增加多个电源层,使得设计复杂性大幅提升。
电源闸控(power supply gating) 电源闸控又比时脉闸控技术更进一步,它会直接切断晶片闲置电路的电源。由于这种技术更复杂,又需要隔离电路,因此通常会用于比时脉闸控技术(以个别电路为单位)还大的范围(多半以模组为单位)。这种技术和多电压域技术也有所不同,其隔离电路会内建于晶片,避免增加电路板设计的复杂性。
操作点技术的应用范围 上述技术是否有用,端赖使用者是根据电池寿命或最大功耗来评断应用系统的优劣。某些技术几乎对所有应用都有帮助,例如多时脉域和多电压域技术只需用到时脉频率和电压,所以任何应用系统都可以採用这两种技术。域的数目只会受到这些技术所带来的设计复杂性限制,多电压域还可能受到电路板复杂性的影响。同样地,多数元件的电路并非都是在最大负载条件下操作,因此时脉闸控技术(尤其採用自动控制方式的技术)在许多应用都能发挥作用。静态电压调整对所有应用都有好处,因为元件只会在提供所需效能的必要电压下操作。
应用系统若以电池为电源,并提供多种操作模式,那么频率调整和动态电压/频率调整技术就能发挥最大作用;另一方面,这些方法对于重视最大功耗的应用却没有太大用处。除此之外,电源闸控对于这些类似于基础设施的应用可能也没有帮助,因为这类应用的元件很少会有大片电路处于闲置状态。
选择适当架构 调整应用功耗的另一种做法是选择最适当的功能整合度、运算处理单元和记忆体架构。
週边和记忆体的整合 元件和外部零件需要透过电路板互传讯号,有可能是系统功耗的主要来源,因为经由电路板传送讯号需要比晶片功能整合还高的电压,电路板讯号线的寄生电容也会造成功耗。
运算处理单元的调整 以系统单晶片为主的现代元件可以选择不同类型的运算处理单元:
DSP 专门执行讯号和影像处理演算法的处理器,内建多组应用最佳化硬体运算逻辑单元和乘法器,能以极高效率执行标准讯号处理演算法。这类元件具备完整的可程式能力,可以轻松支援未来出现的新标准。
通用处理器 ARM处理器就是例子,其主要用来执行一般性功能,例如图形化使用者界面、网路堆叠(network stack)和整体系统控制。由于它们不必整合DSP功能所需的运算处理单元,所以执行一般性功能时功耗就比较小。
特殊用途硬体协同处理器 只包含特定功能所需的算术单元和控制电路。如果应用功能的定义很明确,又不太可能改变,即可将该功能整合到硬体协同处理器。举例来说,整合了Viterbi和Turbo处理器的DSP,便可专门执行3G基地台标准所要求的前向错误更正(FEC)。
今日的系统单晶片多半会整合前述多种运算处理单元。有些架构会採用多种不同类型的运算处理单元,然后将不同的功能交给最适当的核心执行。DSP可以高效率执行讯号处理,RISC则适合处理系统控制和使用者界面等工作。由于每个运算处理单元都以实际所需的速度执行最擅长的工作,故能将功耗减至最小;相形之下,若只用一个运算处理单元执行所有功能,其时脉频率就必须更高,同时还要包含更多硬体,其中有些部份可能经常处于闲置状态。换言之,这类设计的工作效率必然较低,而在工作效率就等于电源效率的情形下,其功耗必然更高。
记忆体系统的选择
元件若想避免存取外部记忆体,也可将应用所需的记忆体全部整合至晶片内。然而视讯或影像系统之类的应用却需要极为庞大的记忆体,将它们全部整合至晶片所需的成本可能远超过直接在电路板上增加DRAM的费用。这类应用可以利用快取架构来减少外部记忆体的存取次数,进行降低系统总功耗。
就算元件包含全部所需的记忆体,快取也能帮助它们降低功耗。这类元件可以将少量的第一层快取记忆体直接连线到处理器,使其储存主记忆体中最常用的内容。主记忆体则是第二层记忆体,其速度通常较慢,所用的记忆体方块也比第一层快取更省电。由于处理器的多数存取动作都会命中第一层快取记忆体,这些记忆体又採用电容值较小的结构,所以每次存取动作的功耗就变得更低。
封装与功耗 前述所有省电技术都能帮助元件减少产生热量,封装则能透过高效率散热进一步加强它们的效果。传统的风扇、散热空间或
散热片都不适合空间有限的可携式应用,它们的高度或成本也可能超过插入式模组或汽车应用所能接受的范围;相形之下,金属散热盖或散热层虽会增加元件成本,却能提供更高散热效率。有些元件还将散热锡球连接到元件的散热接地面,由它透过电路板来达成更良好的散热效果。
选择适当技术电池供电型应用 可携式或掌上型应用最重视电池寿命,但可携式应用使用电池的方式却有极大差异。可携式产品有许多不同的操作模式,设计人员必须将这些模式列入考虑才能让电池享有最长寿命。
MP3播放机 由于歌曲下载时间只佔播放少部份的时间,这类产品的电力多半用于歌曲播放。为了将待机功耗减到最少,它们还会在一段时间后自动关机。MP3播放机必须将音乐即时解压缩,避免资料流失造成各种杂音。MP3播放机的效能需求远小于视讯处理或宽频通讯等其它应用,所以最适合使用低功耗DSP。这类元件通常会採用低漏电制程,因为漏电仍是主要功耗来源。它们还能採用频率调整技术,以便根据歌曲所需的解码效能来降低元件的时脉频率。
数位相机 这类产品有多种操作模式,包括:
(1)自动关机的待机模式;
(2)预视模式(等待拍摄相片);
(3)拍照模式(实际拍摄相片以及处理和压缩影像);
(4)录影模式(部份相机具备此功能)。
数位相机的萤幕有时会开启很长的时间,但DSP真正执行影像压缩的时间却很短。数位相机在预视模式和拍摄模式都必须执行许多即时处理作业,在预视模式必须不断显示最新画面,在拍摄模式则要尽快完成相片的处理和压缩,以便继续拍摄下一张照片,进而将两次拍摄之间的延迟时间缩到最短。这种DSP包含多种不同的运算处理单元:
●ARM7核心,负责系统控制功能和使用者界面;
●TMS320C54x处理器;
●SIMD影像处理引擎(iMX),提供可程式影像处理功能;
●可变长度编码和解码(VLC/VLD)协同处理器,负责影像和视讯的压缩与解压缩;
●预视引擎,即时显示预视画面以及数位变焦。
它还具备很高的功能整合度,可以缩小产品体积和减少系统功耗:
●多用途的OSD功能;
●彩色液晶萤幕的数位界面;
●CompactFlash、SmartMedia、Secure Digital以及Memory Stick记忆卡界面;
●多通道10位元数位类比转换器,负责提供NTSC/PAL复合视讯输出;
●多通道串列音讯Codec界面(McBSP);
●晶片内建USB 1.1功能控制器。
这类装置可以选定某些很少使用的功能,然后在它们处于闲置状态时切断时脉讯号。举例来说,预视和待机模式可能不需要iMX和VLD/VLC功能方块,相机未连接至个人电脑时则可将USB界面的电源关掉。
行动电话 标准行动电话有两种电源模式:
(1)等待电话的待机模式;
(2)实际拨打电话的通话模式。
处于待机模式时,数据机功能(在等待电话时)会以低功耗模式操作,应用功能(数位语音编码和解码)的电源则可完全切断。手机进入通话模式后,数据机功能和应用功能就会在功耗较高的模式下操作。低耗电制程已能满足这类手机的处理需求,因此许多产品都採用这种制程以节省电力,此时产品净功耗与每种模式所佔用的时间有关。它们还能使用电压和频率调整技术,以便根据操作模式的作业需求来调整元件功耗。先进手机还增加数位相机、MP3和录影功能,所以其操作模式也变得更多。为了支援这些操作模式,行动电话通常会採用不同类型处理器所组成的异质架构,由DSP和各个操作模式专用的硬体加速器来执行数据机和相机等应用所需的讯号处理功能,再由DSP搭配负责使用者界面和系统控制功能的RISC处理器。如果某个模式不会用到加速器功能,系统也可切断它们的电压或时脉,例如待机模式不需要使用者界面时,可将RISC核心的电源关机。
可携式应用会视需要採取各种省电技术,以便将重要操作模式的功耗减到最低。
基础设施系统
封包语音(VoIP)或基地台收发器等设备所用的无线和有线基础设施虽属于「插入式」应用,却仍须在不同的功耗限制下操作。有些系统会在电源供应和系统散热能力已经固定的机架上,增加新的功能单元或通道容量,这些系统通常必须在室内空调系统故障时继续正常操作。每个机架的总功耗都不能超过现有电源供应的供电能力,电源供应会将电源提供给机架上的电路板,每张电路板再将电源分配给电路板上的不同元件。随着半导体元件日益精密,晶片还能提高操作频率或内建多颗DSP处理器来支援更多通道。另一方面,不断缩小的电路结构却让晶片产生更多功耗,因此透过封装提高散热效率也变得更重要。由于这些系统必须非常可靠,所以在分析其电源和散热需求时,应将所有处理器都在最大负载下工作的情况列入考虑。
为了降低满负载的操作功耗,这类系统多半会採用在较低电压下操作的高效能制程,并且搭配对于任何应用都有帮助的多时脉域和时脉闸控技术。这些系统不会利用多电压域技术降低功耗,因其包含大量而密集的处理器,此时若採用多电压域技术会造成电路板设计复杂性大幅增加。静态电压调整有助于节省功耗,由于功耗会随着操作电压的平方而改变,所以这些设计会选择较低的操作电压。这些元件还能整合更多核心,以弥补某些核心在较低频率下操作所不足的效能,例如与其使用四个在1.2V下操作的300MHz核心,还不如使用6个在1.0 V下操作的200MHz核心,因为两种解决方案的MHz效能(和通道处理能力)都是1200MHz,但后者功耗却只有前者的(1.0V/1.2V)2,大约是69%。这些元件的晶片面积大都用于内建记忆体,其中又以资料记忆体为主。由于在特定的通道处理密度下,每颗晶片所需的资料记忆体也是定值,而且其中多数记忆体又会直接分配给各个核心使用,所以增加核心并不会造成晶片总面积等比例增加,所带来的低功耗优点则足以弥补额外增加的成本。
功耗最佳化必须符合应用需求 不同的DSP应用设备需要不同的策略来满足其需求,例如基础设施系统希望降低最大负载条件下的功耗,可携式应用则希望将电池的电力消耗减至最少,它们的需求显然就有极大差异。事实上,就算同类型的应用都可能有着极为不同的要求,例如不同的可携式应用必须採取不同的电源最佳化技术来满足各自的操作需求。半导体厂商想要服务各种市场,就必须掌握多种制程、设计和架构技术,才能针对目标应用提供最合适的元件。