哪家中国芯片公司能「吃下」大模型？

半导体产业纵横 2023-07-31 2418

描述

中国AI芯片公司的天花板，可能是AMD。

ChatGPT火爆时，浩然被两股矛盾的情绪夹在缝隙：一面是兴奋，一面是悲伤。作为一名AI芯片公司的高级软件工程师，ChatGPT大爆发前夜，浩然对自己参与研发的大算力AI芯片充满信心，他相信为特定AI算法研发的专用芯片，相比英伟达通用的GPGPU在同等功耗下可以有2倍的性能优势，价格可以做到50%甚至更低，只要软件体验不太差，客户一定会买单。可ChatGPT掀起的大模型热潮，让浩然和同行们都开始思考，AI算法是否有从百家争鸣走向大一统的可能。

这意味着，过去为特定领域AI算法研发的专用AI芯片，由于计算负载特性的急剧变化，之前的性价比优势会被明显削弱，英伟达兼具高显存带宽和高互联带宽特性的通用GPU优势将会进一步扩大，想要和英伟达竞争的难度更大了，这让浩然有些悲观。但从自己工作的角度，AI算法的大一统可以让硬件工程师和软件工程师工作的目标都更清晰，工作会难度降低，这是浩然欢呼的理由。 “我不相信英伟达能一直保持领先。”芯片架构师宇阳保持信心，“GPU不见得是大模型的最佳解，中国AI芯片公司里一定会有能和英伟达掰手腕的公司。国内众多的AI大芯片公司，谁能吃下大模型市场？

芯片公司想喝口大模型的汤也不容易

就算是英伟达长久以来的竞争对手AMD，在英伟达大口吃AI大模型肥肉的时候，AMD也没喝上多少汤。综合实力不及AMD的国内初创公司们，就算嘴上高呼赶超英伟达，心里也清楚能做互联网公司的第二供应商，喝上大模型的汤就是巨大的成功。大模型火爆，全世界的公司都在找英伟达买GPU。原先售价3万多美元的最新款H800 GPU，就算终端售价加价1万多美元依旧一卡难求。这种供不应求的盛况直接将英伟达的市值推向1万亿美元，创造了全球半导体公司市值的新纪录。 “客户很奇怪，就算AMD有性能不错的GPU现货，许多想要购买H800 GPU的人依旧不为所动。”一家AI芯片公司的高管道出想要超越英伟达的难度。

技术出身，如今已是芯片公司高管的洪杰深谙其中的道理，“客户对AMD的要求和对英伟达产品的要求一样，有的时候甚至更苛刻，客户愿意买单的替代产品是比英伟达的GPU便宜，体验还要差不多。” “采购英伟达GPU量最大的公司还没有第二供应商。”洪杰感叹，“不得不承认英伟达的强大，现阶段不要说超越英伟达，成为二供都很难。” 困难的事情往往收益很高，像是字节跳动这类大客户，每年采购英伟达GPU的订单金额就接近百亿元。只要能从英伟达嘴里分到几十亿的市场份额，就足够养活几家国内的AI芯片公司。离开AMD创业的人成为二供的概率会更大吗？欢迎添加文章作者微信BENSONEIT聊聊离开AMD的人。

「追随派」和「创新派」争抢大模型

国内AI大芯片初创公司非常特别，有跟随英伟达路线做GPGPU的初创公司，可以叫他们“追随派”。也有另辟蹊径，设计AI专用芯片（也就是DSA，Domain Specific Architecture，领域专用架构）的“创新派”。这是一个非常有趣的现象，因为在国外只有创新派没有追随派，也就是没人选择走GPGPU的技术路线创业。 “所有人都知道，沿着英伟达的路径不可能超越英伟达，这几乎是不证自明的事情。并且，西方的创业者更喜欢做颠覆式创新。”洪杰分析，“寻求颠覆式创新的架构师们对AI计算问题的理解与定义不同，自然也计出了各种不同的AI芯片架构。” 谷歌定义的TPU专用性很强，是一个典型的领域专用芯片DSA。

被誉为全球AI芯片独角兽的SambaNova Systems选择了可重构架构。Cerebras Systems走了一条直接用晶圆做芯片的路。英国AI芯片独角兽Graphcore创造了独特的IPU架构。国内也有多家走DSA路径创业的AI大芯片公司，比如寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。 “选择DSA路径创业还有一个优势，核心IP设计门槛相对较低。”芯片编译器专家德辉打了个比方，用搭乐高来理解设计GPGPU和DSA的难度，设计GPGPU就是面向18岁以上玩家的乐高，有许多精细的小模块，拼起来难度大但作品很精巧。设计DSA就像是面向5岁的乐高，模块更大拼起来更容易。

“DSA的门槛可以很低，上限也可以很高。”宇阳说，“ GPU也是一个DSA。最初的GPU图形专用加速芯片，没有可编程性，后来英伟达为其增加了通用性之后才变成了GPGPU。” 英伟达将GPU变为大众认知里的通用芯片，也是通过了近20年的努力，从建立CUDA软件生态到成熟，让GPGPU能做图形加速，AI计算，科学计算。 “从技术维度，区别CPU和DSA可以看其是否能运行Windows、Linux这样的操作系统。”宇阳补充，“从这个角度看GPU依旧是DSA。” 只是在大部分人眼里，英伟达的GPGPU已然成为了一颗通用芯片，在当下最为火热的AI市场里供不应求。

早已看到英伟达GPGPU强大的中国创业者，直接选择了GPGPU架构进行创业，就像天数智芯、登临科技、壁仞科技、海飞科。 “选择GPGPU的路径虽然不能超越英伟达，但有国产替代的刚需，而且这条路线可以通过多种技术方案做到‘兼容CUDA’，降低用户的软件切换成本。”浩然直言，“有了国产替代的需求，让中国大芯片创业公司有机会与英伟达竞争，并且最终一定会留下几家AI大芯片的公司。” 这时谁能吃下大模型的问题就变成了追随派和创新派的机会谁更大？

两派相争，创新派已死？

一个非常犀利的观点是，DSA已死。这是一个极具争议性的话题，探讨这个话题可以添加作者微信BENSONEIT。这种论调核心的逻辑是英伟达编程性很强的GPGPU已经通过了AI大模型的验证，在Transformer让AI算法趋于收敛的现状下，英伟达可以通过手工优化底层代码，高效调度底层硬件获得持续的性能提升，让已经流片量产的DSA不再拥有设计之初的巨大性能优势。 “算法不确定的时候，英伟达没有动力针对某个算法做手工优化。这让针对某类算法（比如CNN）的DSA可以有2倍甚至更多的性能优势。”浩然对DSA的未来有些悲观。

“现在算法和模型收敛，英伟达进行手工优化可以充分释放出硬件的性能，每一代CUDA升级都会带来10-20%的性能提升。而通过底层硬件固化实现性价比优势的DSA要持续通过软件优化提升性能的难度很大，极端的情况软件甚至没有多大的提升空间。” 德辉从他擅长的编译角度解释，Flash Attention系列工作在大模型上的惊艳效果，正是说明针对特定模型的手工融合大算子是一种典型手段，本质是通过手工将特定的模型子结构从存储受限（memory bound）转化成了计算受限（compute bound），最大程度发挥出了GPU的计算性能。 “这种方式只是做了局部的优化，手工成本比较高，也难以大规模推广。”德辉不认为DSA已死，“只有拥有一个能够自动生成融合算子的编译器，GPU才能最大程度发挥出性能优势。但自动编译CPU做了几十年也没做出来，这是一个业界难题。” 比编译器更底层的芯片架构，也决定着计算AI大模型任务的效率。

宇阳也指出了GPU架构的局限性，GPU为了保证很强的编程性，在架构上借鉴了CPU的设计，芯片上没有缓冲器（Buffer），每次操作的对象只能是寄存器，典型寄存器大小是个很短的向量，比如64字节，这是保证编程灵活性的最好设计，但数据要不断在芯片内部和外部存储之间搬运，效率不高。 “AI大模型动辄就是上百亿个参数，要提升计算效率需要尽量减少数据的搬移。DSA可以为大模型设计很大的片上缓存，一次可以操作64字节的上千倍，相比GPGPU有明显优势。”宇阳指出。两者的差别非常明显，GPGPU计算 AI模型时计算单元的利用率一般情况下只有30%-40%，而DSA一般都能做到计算单元的利用率达到80%-90%。 “许多人没看到DSA的核心价值——数据流优化。”德辉的经验告诉他，“通过充分发挥DSA片上有的大存储器（SRAM）优势，利用编译器进行彻底优化，实现理想的图编译，每一层都把大模型计算的存储受限转化为计算受限，能够最大化DSA的优势。” 而DSA的优势没被充分挖掘出来，还是因为许多DSA芯片公司都在用英伟达的思路设计软件。

“用英伟达GPGPU的方法设计软件既是一个思维定式，也是一个经过验证成功的路，风险更低。并且，要针对DSA的优势用另外的思路设计编译器，也有技术上的挑战，比如打破算子边界带来的复杂性。”这是德辉的心得。即便再看好DSA，宇阳和德辉都没有否认未来的趋势是混合DSA。

专用和通用融合才是大模型的最优解

“一个完美的AI大模型处理器应该是用T4 GPU的计算核心，用H100 GPU的显存。”洪杰用一个形象的说法道出大模型的真实需求。而兼具通用性和专用性的混合DSA芯片才是满足大模型需求的理想产品，未来AI芯片公司的比拼是混合DSA。 6年前，英伟达的Volta架构首次为深度学习加入了Tensor Core，此后的每代架构都不断优化Tensor Core，增强GPU的AI性能。 2022年发布的H100 GPU，又增加了软硬结合的Transformer Engine，目的是加速AI大模型计算。 Tensor Core和Transformer引擎，都是为AI工作流设计的专用计算单元。也就是说，英伟达早就在“通用”的GPGPU上增加了“专用”的AI加速单元，这种融合设计兼顾了GPGPU的通用性，又能发挥专用加速单元的能效比优势，更像是大模型的最优解。

这里有一个会让人费解的问题，既然AI模型都稳定了，为什么不是设计一个Transformer专用的加速芯片，还需要通用性？ “算法的类别虽然从几千种变成几百种，但还在不断优化，只有具备足够的通用性，才能最大化芯片的价值。”宇阳解释。 “从芯片的设计规律看，设计一个Transformer专用加速芯片，去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉Transformer，也是一个非常疯狂的想法。”浩然补充。那混合DSA的路线明确之后，各家芯片的差异会如何体现？ “混合DSA其实就是在通用的CPU和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样，但到底谁的设计更好，需要时间的检验。因为架构的设计不是一个纯粹的技术问题，还与当时所处的时间，环境有很大关系。”宇阳这样认为。其中有赌的部分，浩然说，“混合DSA的片上存储（SRAM）非常贵，因为需要占用的芯片面积非常大，所以到底设计多大的SRAM，需要赌。”

最终混合DSA芯片之间差异将会很小。 “就像如今安卓系统和iOS系统越来越像一样，最后能够留下来的混合DSA架构的AI芯片，可能也是80%相同，只有20%不同。”洪杰做出了这样的判断。但在走到这一天之前，混合DSA还有一个巨大的难题——比GPGPU和DSA都更复杂的软件栈。这很容易理解，既然是将两种架构融合，系统就更加复杂，难度自然也更大。当然，更明确的算法又能降低软件开发和优化的难度。此时，就可以回到最初的问题，中国芯片公司谁能喝到大模型的汤？

谁能更快吃上大模型？

商业的成功不是单纯的技术路线“好坏”就可以决定，现在可以看到的是，跟随派转向混合DSA的技术难度相对低一些，创新派有RISC-V CPU可选，可谓各有优劣。具体到每一家公司的时候，情况又各不相同。 “GPU的众核（Many Core）设计，相比DSA的设计难度更大，所以已经设计出GPGPU的初创公司，再增加一个DSA，比DSA增加一个GPGPU的难度小一些。”浩然从众核设计的难度判断各家芯片公司面临的挑战大小。 “GPU的一致性控制确实很难。”宇阳部分认同浩然的观点，“但增加可编程性并不一定就是要做一个GPGPU，有很多路径可选。” 德辉就非常看好RISC-V CPU加上DSA的混合DSA，“RISC-V CPU可以提供向量计算，并且有足够的通用性，与DSA混合是一个不错的选择。” 这种混合DSA方式要自己建立软件生态，需要投入的资源巨大。

“芯片要落地非常关键的是要接受客户的批评和质疑，然后务实地迭代。”洪杰的想法是，“芯片公司要把客户不愿做的活都做了，比如迁移芯片的大量工作，让客户可以无感迁移，但这需要极大的人力和时间的投入。” 相比之下，DSA路径的公司想兼容CUDA生态的难度比GPGPU路径的公司难度更大。

但对于走GPGPU路径创业的公司也不是一件容易的事情，要兼容英伟达的CUDA生态，硬件设计和软件都要尽量接近英伟达，才能实现接近英伟达GPU的性能。 “AMD就是走兼容英伟达的路，国内公司走这条路的天花板就是AMD。”德辉指出，“在部分场景做到英伟达80%的体验没有问题，但超越不了英伟达。” 再大致看看各家的情况，追随派里天数智芯和登临科技具有先发优势，壁仞科技也被多位内工程师视作黑马。创新派里的寒武纪受到美国禁令的限制前途难料；燧原科技每一代产品都采用了HBM（高带宽存储器）适合大模型，但和其它公司一样，软件是个不小的挑战。注意一个时间点，2025年英特尔计划推出融合其GPU和DSA的新一代AI芯片，那时候AI芯片的竞争将会更加激烈。

审核编辑：刘清

打开APP阅读更多精彩内容