通用与专用计算

半导体科技评论 2021-05-17 4835

电子说

1.4w人已加入

描述

计算机的兴起不仅源于技术上的成功，也归功于经济力量为其提供的支持。Bresnahan和Trajtenberg创造了通用技术（general purpose technology， GPT）一词用于诸如计算机这类的产品，这些产品具有广泛的技术适用性，并且在数十年间其产品改进和市场增长可以相互促进。但是，他们还预测到GPT可能会在其生命周期的后期遭遇挑战：随着进展放缓，在一些特定的市场定位上，其他技术可以取代GPT并破坏了这一经济持续增长的周期。今天，我们能够观察到这样的转变：由于中央处理器（CPU）的改进速度减慢，诸多应用程序转而使用专用处理器，例如图形处理器（GPU），虽然它能够完成的工作比传统的通用处理器要少，但是在实现特定功能的时候表现出了更高的性能。包括深度学习（一种机器学习类型）和比特币挖掘在内的许多备受关注的应用已经在跟随这一趋势。

在这种背景下，我们现在可以更加明确这篇文章的主题：“The Decline of Computers as a General Purpose Technology”。我们并不是说计算机将失去技术能力从而“忘记”如何进行一些计算，我们的观点是，在快速改进通用处理器的基础上，零散的经济周期正在逐步取代使用通用计算平台的经济周期，而在这种零散的周期中，经济学将用户推向由专用处理器驱动的多样化计算平台。

这种碎片化意味着部分计算将以不同的速度进行，这对于在“快车道”中运行的应用来说是一件好事情，在这种情况下，更新迭代保持迅速的状态，但是对于那些不再受益计算能力提升的应用来说，他们也因此被分配为“慢车道”。这种转变也可能减慢计算机改进的总体步伐，从而危及这一重要领域的经济贡献。

通用与专用计算

早期-从专用到通用。早期的电子产品并不是可以执行许多不同计算的通用计算机，而是专用于完成一项任务且仅有一项任务的专用设备，例如收音机或电视机。这种专用的设备具有以下优点：设计复杂度可控、处理器高效、工作更快、功耗更低，而缺点就在于专用处理器的应用范围也更窄。

早期的电子计算机，甚至那些被设计为“通用”的计算机，实际上都是为特定算法量身定制的，很难适应其他算法。例如，1946 ENIAC虽然在理论上是通用计算机，但它主要用于计算artillery range tables，哪怕需要略微不同的计算，都必须重新手动连接计算机来改变硬件设计。解决此问题的关键在于需要设计出可以存储指令的新计算机体系结构，这种体系结构使计算机更加灵活，能够在通用硬件而非专用硬件上执行许多不同的算法。这种“冯·诺依曼架构”非常成功，目前，它依然是几乎所有通用处理器的基础。

通用处理器的崛起。许多技术引入市场时便经历了可以帮助它们发展的良性循环（图1a）。最初，使用者购买该产品，从而为产品升级更新提供了资金支持。随着产品的改进，越来越多的消费者会去购买它，这为下一轮的改进提供了资金，依此类推。然而对于许多产品而言，由于产品改进变得过于困难或市场增长停滞，这种循环从中短期来看在逐渐减弱。

通用处理器

图1. 历史上通用处理器的良性循环（a）正在转变为fragmentation cycle（b）

在通用处理器发展的几十年里，GPT一直能够继续受益于这一良性经济周期。其市场已经从军事、航天等领域发展到全球使用的20多亿台PC，这种市场增长推动了越来越多的投资来实现处理器的改进。例如，英特尔过去十年在研发和制造设备上花费了1830亿美元，这部分的投资已经带来了巨大的回报：据估计，自1971年以来处理器性能已经提高了约40万倍。

另一种选择：专用处理器。通用处理器必须能够很好地进行多种不同的计算，这导致设计上不得不做出折衷，虽然有许多运算可以快速完成，但并没有哪一个达到最优。对于那些适合专用处理器的应用，这样的折衷方案会导致很高的性能损失。这些应用的运行具有一些特征：

l 大量计算可以并行化。

l 要进行的计算是稳定的，并且很规则地更替（规则性）。

l 给定计算量需要相对较少的内存访问（局部性）。

l 计算可以用较少的有效数字进行。

在上述的情况下，专用处理器（例如，ASIC）或异构芯片的专用部件（例如，I.P. block）可以更好地执行运算，因为这些硬件可以根据应用量身定制。

在对典型CPU（主要的通用处理器）和典型GPU（最常见的专用处理器）进行比较时，可以看出专用性在某种程度上改变了处理器设计变化程度（见附表）。

通用处理器

表。 CPU和GPU的技术规格比较

GPU的运行速度较慢，约为CPU的三分之一，但在每个时钟周期中，它可以并行执行比CPU多100倍的计算。这使得对于并行性很强的任务，它的运算比CPU快得多，反之，对于那些并行性很小的任务，GPU的运行速度则会慢于CPU。

GPU的内存带宽通常是GPU的5-10倍（带宽决定一次可以传输多少数据），但访问这些数据的时间延迟却要长得多（至少是最近内存时钟周期的6倍），这使得GPU在可预测的计算（从内存中所需的数据可以被预测并在适当的时间传输到处理器）方面做得更好，而在不可预测的计算上表现不佳。

对于与专用硬件非常匹配的应用程序，GPU在性能上的提高可能是巨大的。例如，2017年，GPU的领先制造商NVIDIA估计，深度学习（AlexNet与Caffe合作）在GPU上的运行速度较CPU提高了35倍以上，现今，该速度甚至更高。

专用处理器的另一个重要优点是，在进行相同的计算时它的能耗更低。这对于受电池寿命限制的应用（如手机、物联网设备）和需要大规模计算的应用（云计算/数据中心、超级计算）尤为重要。

截至2019年，十大最省电超级计算机中有九台使用了NVIDIA的GPU。

专用处理器也有致命的缺点：它们能运行的程序范围非常有限，也很难编程，并且通常需要一个运行操作系统的通用处理器来控制它们中的一个或多个。设计生产专用硬件也可能十分昂贵。对于通用处理器，其固定成本（也称为非经常性工程成本（NRE））会均摊到大量芯片上。相比之下，专用处理器的市场通常要小得多，因此每个芯片的固定成本更高。截至2018年，使用先进技术制造带有专用处理器的芯片的总成本约为8000万美元，而使用老一代的技术可以将成本降低到3000万美元左右。

尽管专用处理器有很多优点，但是它们的缺点依然非常致命，在过去的几十年中，出GPU以外，其他专用处理器几乎没有被采用。专用处理器的技术仅仅采用在那些性能提升非常关键的领域，包括军事应用、游戏和加密货币挖掘领域。但这种情况正在开始改变。

专用处理器的现状。包括PC、移动设备、物联网（IoT）和云计算/超级计算在内的所有主要计算平台的专用性都变得越来越强。其中，PC仍然是通用性最强的。相比之下，由于电池寿命，能源效率在移动和物联网中更为重要，因此，智能手机芯片上的许多电路（例如RFID）和传感器均使用专用处理器。

云计算/超级计算也变得更趋向于专用性。例如，2018年，最大的500台超级计算机的新增产品首次从专用处理器获得了比通用处理器更高的性能。

国际半导体技术蓝图（ITRS）的行业专家协调了保持摩尔定律发展所需的技术改进，他们在最终报告中隐含地表达了这种向专用性的转变。他们承认，不应再用传统的“一刀切”的方法去确定设计要求，相反，应针对特定应用量身定制。

下一部分将探讨所有主要计算平台向专用处理器的转变，将对生产通用处理器的经济性产生的影响。

通用技术的碎片化

支持GPT的良性循环来自一系列相辅相成的技术和经济力量。但不幸的是，它同样也会带来反作用：如果这个周期中的某个部分中的改进进程变慢，那么其他部分的改进也会相应变慢。我们将此对立点称为“fragmenting cycle”，因为它有可能将计算碎片化为一系列松散相关的部分，这些部分以不同的速度推进。

如图1（b）所示，fragmenting cycle分为三个部分：

l 技术进步缓慢。

l 新用户减少

l 更难为创新筹集资金

这个周期背后的原理很简单：如果技术进步缓慢，那么新用户的人数就会减少，但如果没有这些新用户提供的市场增长，那么改进该技术所需的不断上涨的成本可能变得令人望而却步，从而减缓了进展。因此，在这种协同反应之下，每个部分都会进一步增强碎片化。

下面，我们将详细分析该循环三个部分中每一个的状态，从而得到“碎片化已经开始”已然开始的结论。

技术进步缓慢。我们用两个关键指标来衡量处理器的改进速度：“性能“”和“每美元性能”。从长期数据看，这两个指标均迅速提高，主要是因为晶体管的小型化致使每个芯片的晶体管拥有更高的密度（摩尔定律）和更快的晶体管开关速度（Dennard缩放比例定律）。不幸的是，由于技术原因，制造商已经达到了现有材料和设计所能做的物理极限，Dennard 缩放比例定律于2004/2005年终结，摩尔定律也越来越难维持，这些技术极限需要付出极大的努力才能克服。在这个过程中，可以明显看到小型化所带来的“性能”和“每美元性能”的提升正在放缓。

从Hennessy和Patterson对SPECInt进度的描述（图2 a）以及美国劳工统计局的生产者价格指数（图2 b）可以看出，通用计算机性能的提升显著放缓。从这些角度来看，如果“每美元性能”每年以48％的速度提高，那么10年后它的效率将提高50倍。相比之下，如果每年仅以8％的速度提高，那么在10年内，它只会提高2倍。

通用处理器

图2.微处理器的改进率，根据以下标准衡量：（a）SPECint基准上的年度性能改进，（b）质量调整后的年度价格下降。

新用户减少。随着通用处理器的提升的步伐放慢，新功能的开发也会减少，从而导致客户没有更换计算设备的医院。英特尔首席执行官Krzanich在2016年证实了这一点，称PC的更换率已从每4年一次提高到每5-6年一次。有时，用户甚至会跳过很多代处理器的升级，因为觉得它们不值得更新。在其它平台上也是如此，例如2014年美国智能手机平均每23个月进行一次升级，但到2018年则延长到31个月。

在通用处理器发展的几十年里，GPT一直能够持续受益于这一良性经济周期。

用户从通用处理器向专用处理器的转移是我们关于计算碎片化的论点的核心，因此我们将对其进行详细讨论。假设现在有一个用户，他既可以使用通用处理器也可以使用专用处理器，但希望以最低的成本得到最佳性能。图3（a）和图3（b）给我们提供了直观的分析，两幅图都显示了通用处理器和专用处理器随时间的性能提升情况，但是通用处理器的改进速度在两幅图中却有所不同。在所有情况下，我们都假设选择了时间T，那么专用处理器的高价格将由一系列经过改进的通用处理器的成本所平衡，这意味着两条曲线在成本上是相等的，因此，优良的“性能”也意味着同样优越的“每美元性能”，这也是我们认为专用处理器在这段时间内具有稳定的性能的原因。（在专用处理器升级这一点上，它也将获益于通用处理器受益的改进，并且用户将再次重复相同的决策过程。）

通用处理器

图3. 最佳处理器的选择取决于专用处理器带来的性能提升以及通用技术的提高速度。

如果专用处理器可以提供更大的性能初始收益，那么它会更具吸引力。但是，如果通用处理器的改进从图3（a）中的快速发展变成图3（b）中的缓慢发展，专用处理器也变得更具吸引力。我们通过考虑两条时间路径中的哪一条可提供更多收益来进行建模。也就是说，如果：

通用处理器

式中，通用处理器和专用处理器在时间T上可提供性能分别为Pu和Ps，通用处理器的性能提升速率为r。我们在在线附录（https://doi.org/10.1145/3430936）中展示了该模型的完整推导。该推导帮助我们从数学上估算专用处理器抵消高成本所需要的优势的量（图3 c 中显示，CPU的年改进率从48％降低到8％）。

毫无疑问，专用处理器在提供更大的加速比或将其成本均摊到更大的数量时将会更具吸引力。但是，随着通用处理器改进的步伐，当专用性变得有吸引力时，这些临界值将发生变化。重要的是，因为我们假设总体上专用处理器与通用处理器之间的进度有所不同，即假定所有处理器都能够使用当前最先进的制造技术，所以将不会产生上述的影响。相反，它的出现是因为必须分摊专用处理器高昂的每单位NRE（一次性工程费用），以及在此期间与升级通用处理器相比之下的优越性。

一个数据清楚地表明了这一变化的重要性。在摩尔定律的顶峰时期，当每年的改进速度为48％时，即使专用处理器的速度比通用处理器快100倍，也就是（这是一个巨大的差距），为了获得投资回报，还需要大约8.3万的生产量。在另一个极端，如果性能优势仅为2倍，则需要生产数量要达到约1，000，000才能使专用性处理器更具吸引力。这些结果清楚地说明了为什么在摩尔定律的鼎盛时期，专用处理器的生产商很难进入市场。

但是，如果我们使用8％（2008-2013年的增长率）重复处理器选择计算，那么这些结果将发生显着变化：对于速度提高100倍的应用，所需的处理器数量从83，000降至15，000，对于那些提速2倍的应用，数量则从1，000，000下降到81，000。因此，在通用处理器的更新进度变慢之后，更多的应用就会转向专用处理器。

更难为创新筹集资金。2017年，半导体行业协会估计，为下一代芯片建造和配备制造设施（“ fab”）的成本约为70亿美元。“下一代”是指芯片进一步小型化（或称进程“节点”）。

用于芯片制造设施的成本的投资必须由它们产生的营收来平衡。2016年，该行业3430亿美元的年收入中，多达30％来自尖端芯片，虽然收入十分可观的，但是成本也在增长。在过去的25年中，受到光刻成本的影响，建造领先的晶圆厂的投资（如图4a所示）每年增长11％。将过程开发成本包括在此估算中，将进一步使成本每年增长至13％（根据Santhanam等在2001年至2014年间进行的测算）。讽刺“摩尔第二定律”的芯片制造商都知道：芯片厂的成本每四年翻一番。

通用处理器

图4.芯片制造的经济恶化。

长期来看，如此快速的固定成本增长对单位成本的影响仅有部分能被强劲的整体半导体市场增长所抵消（1996-2016m年复合增长率为5％），这使半导体制造商能够在更大的数量上分摊固定成本。固定成本每年增长13％与市场每年增长5％之间的巨大缺口中的剩余部分，可能将导致竞争力较弱的参与者退出市场，而其余参与者则通过大量筹码来摊销其固定成本。

如图4（b）所示，该行业确实存在着巨大的整合，生产领先芯片的公司越来越少。从2002/2003到2014/2015/2016，拥有领先晶圆厂的半导体制造商数量已从25家减少到只有4家：英特尔、TSMC、三星和格罗方德。而格罗方德近期宣布，他们将不会继续下一个技术节点的开发。

我们发现这种合并很有可能是由于固定成本快速上升且市场规模仅适度增长带来的经济恶化所致。通过一些计算，可以看出市场整合在多大程度上改善了半导体行业额经济性。如果将市场平均分配给不同公司，则意味着平均市场份额将从2002/2003年的通用处理器增长到2014/2015/2016年的。以复合年增长率表示，这将是14％。这意味着生产商可以通过市场增长并占有现有工厂的市场份额（13％《5％+ 14％）来弥补晶圆厂建设日益恶化的经济状况。

实际上，市场不是平均分配的。英特尔在市场上占有主导地位，结果，英特尔也无法以这种方式抵消固定成本的增长。实际上，在过去十年中，英特尔固定成本与其可变成本的比率已从60％上升到100％以上，这一点尤为引人注目，因为近年来，英特尔放慢了发布新节点大小的步伐，预计这将降低他们进行固定成本投资的步伐。

市场整合抵消固定成本增长的能力只能持续一定时间。如果我们预测当前趋势，那么到2026年至2032年（取决于市场增长率），领先的半导体制造将只能支持单个垄断制造商，并且每年为新工艺节点建造新设施的固定成本将等于年度行业收入。需要说明的是，我们的论断并不是说这要在2020年代末成为现实，而是强调当前的趋势会无法持续，并且在大约10年内制造商将被迫大大放慢新工艺节点的发布速度，并寻找其他控制成本的方法，这两者都会进一步减缓通用处理器的提升进度。

碎片化循环。碎片化循环周期的三个部分中，在每个部分之间都会相互增强的情况下，我们希望看到越来越多的用户能看到通用处理器的及其微小的改进，从而转为关注专用处理器。对于那些有极高需求和非常适合专业化计算（例如深度学习）的人，这将意味着性能上巨大的提高。对于其他人来说，专用化将不是一个合适的选择，它们将会留在通用处理器上，并且发展速度会越来越慢。

启示

谁会去做专用处理器。如图3（c）所示，专用处理器将用于更换后获得大幅度提速的应用场景，并且需要足够的需求量才能证明这一开销是合理的。据此标准，大型科技公司成为最早一批投资专门处理器的公司也并不奇怪，例如谷歌、微软、百度和阿里巴巴。与仍可受益于广泛应用程序的GPU专业化或对大多数用户有价值的加密电路中的专业化不同，我们期望未来的专业化会更窄，因为仅需少量处理器即可使收益更可观。

我们还期望大量使用这些专用处理器的人，并非是专用处理器的设计者，而是像将GPU用于深度学习运算的人一样，用新的硬件来设计算法。

小型化的最终好处将是价格溢价，并且可能仅由重要的商业应用来支付。

谁不会用。不迁移到专用处理器的应用场景可能因为：

l 性能提升少

l 没有足够大的市场来证明前期固定成本合理

l 无法协调需求。

先前，我们描述了四个特征，这些特征使得使用专用处理器可以加快计算速度。如果没有这些特性，那么专门化只能带来最小的性能提升（如果有的话）。一个重要的例子是数据库。正如我们采访的一位专家告诉我们的那样：在过去的几十年中，很明显，专用于数据库的处理器可能非常有用，但是数据库所需的计算不适合采用专用处理器。

第二类将无法用专用处理器的是那些需求不足以证明前期固定成本合理的处理器。正如我们通过模型得出的那样，需要数以千计的处理器市场来证明专用化的合理性。这可能会影响那些在小范围内进行密集计算的人（例如，研究科学家进行罕见的计算）或那些计算随时间而快速变化并因此需求迅速消失的人。

可能不会用专用处理器的第三组是那些没有单个用户具有足够需求且协调困难的群体。例如，即使成千上万的小用户共同拥有足够的需求，也很难使他们共同为生产专门的处理器做出贡献。云计算公司可以通过资助创建专用处理器，然后将其租出来来解决这一问题。

技术进步会帮助我们摆脱困境吗？为了使我们回到一个收敛的周期，在该周期中，用户将切换回通用处理器，这需要性能和/或每美元性能的快速提高。但是技术趋势却指向相反的方向。例如，在性能方面，预计微型化的最终好处将是价格溢价，并且仅可能由重要的商业应用来支付。甚至存在一个疑问——是否将完成所有剩余的、在技术上可行的小型化。Gartner预测，到2026年5nm量产时将会有更多的小型化，而台积电（TSMC）最近宣布了一项投资195亿的 2022年达到3nm的计划，但我们在本研究中采访的许多受访者对进一步的小型化是否值得持怀疑态度。

其他技术改进是否可以恢复通用处理器改进的步伐？当然，有关此类技术的讨论很多：量子计算，碳纳米管，光学计算。不幸的是，专家们预计，至少要再过十年，工业界才能设计出一种范围更广的量子计算机，进而有可能替代传统的通用计算机。可能具有更广阔前景的其他技术仍将需要大量资金来开发并投放到市场。

结论

传统意义上，计算的经济性是由通用技术模型驱动的，通用处理器的提升越好，那么市场增长就会加大对其投资，从而进一步推动它们的改进。几十年来，GPT的这种良性循环使计算成为经济增长的最重要驱动力之一。

本文提供的证据表明，这种GPT周期已被碎片化的周期所取代，这些碎片化的周期导致了计算速度的增长缓慢和用户的分裂。我们展示了fragmenting cycle的三个部分，它们中的每一个都已经在进行中：通用处理器的改进率已经出现了急剧且不断增长的放缓；购买通用处理器和专用处理器之间的经济权衡已急剧转向专用处理器；而且制造更好的处理器的固定成本不断上升，将无法再由市场增长率来弥补。

总而言之，这些发现清楚地表明，处理器的经济状况已经发生了巨大变化，将计算推入了截然不同的专门领域，并且彼此之间提供的利益也越来越少。而且，由于此循环是自我增强的，因此它将永久存在，从而进一步碎片化通用计算。最终，将会拆分出更多的专用的应用，通用处理器的改进速度将进一步放慢。

本文强调了经济学推动计算方向的重大转变，并对那些想要抵制计算碎片化的人们提出了挑战。

责任编辑：lq

打开APP阅读更多精彩内容