五年完成从0到1,国产TPU的算力突围

描述

电子发烧友网报道(文/黄山明)如今,AI已被全球广泛确认为未来发展的核心驱动力,不仅是科技前沿,更是重塑经济、社会、产业乃至人类生活方式的关键力量。而在AI技术蓬勃发展的背后,是靠着算法、数据、算力三大支柱的系统,而硬件是算力的唯一载体,也是数据处理、算法落地的物理基础。
 
在过去,AI的算法硬件主要依靠GPU与CPU,但随着AI技术的发展,传统GPU的弊端开始显现,市场需要一种更高能效比、更低延迟和更便宜的大规模部署成本的产品,此时TPU开始逐渐在市场中显现。
 
从GPU到TPU
 
说起GPU,相信大多数人都不会陌生,作为专为图形渲染设计,拥有数千个并行计算核心,能同时处理大量简单任务的芯片,GPU与深度学习的海量矩阵运算需求完美契合。因此早在2011年,就有AI研究者发现英伟达的GPU能够处理深度学习的巨大计算需求,谷歌、斯坦福等企业与机构都开始使用。
 
而在此之前,AI的最大问题不是算法,而是神经网络算不过来,训练一次就需要几周或者几个月,模型稍微一大就“跑不动”了。
 
到了2012年,多伦多大学的Alex Krizhevsky用两块GTX 580 GPU训练出AlexNet,在ImageNet图像识别大赛中准确率从74%飙升至85%,震惊业界,这是深度学习第一次碾压传统方法。以至于后来黄仁勋直言,没有GTX 580,就没有今天的英伟达,也没有现代的AI。
 
不过在2013年,谷歌却面临了一场算力灾难,若1亿安卓用户每天使用3分钟的语音搜索,那么现有数据中心算力将不足应对,需要翻倍扩建。传统CPU/GPU在处理神经网络的大规模矩阵运算时效率极低,功耗却极高。
 
显然,GPU解决了能不能做AI的问题,但面对AI太贵了、太耗电以及太难规模化的问题无能为力。2015年,第一代TPU(v1)在谷歌数据中心悄然部署,2016年5月Google I/O大会正式亮相,此时已内部使用一年多。
 
TPU(Tensor Processing Unit)并不像GPU那样追求通用型,而是针对神经网络牺牲一切多余能力的专用芯片。因此TPU在AI发展中解决了这三件事,成本、能效、可预测性上都要超过GPU。
 
具体来说,TPU采用systolic array结构,把矩阵乘法/累加操作做成硬连线流水线,数据在阵列内部流动完成计算,几乎省去了传统GPU需要反复读写共享缓存或显存的步骤。谷歌第六代Trillium与第七代Ironwood的实测数据显示,在同等7nm工艺下,TPU的每瓦AI算力达到GPU的1.4–2.0倍;若与2018年的初代TPU相比,能效提升了近30倍。
 
并且由于片上HBM距离计算单元更近,且去掉了图形渲染所需的大量控制逻辑,TPU在批量推理场景下的延迟普遍比GPU低15–40%;在谷歌搜索、推荐、Claude等线上业务中,同样模型TPU的P99延迟显著优于GPU。
 
在成本上更是优势显著,当部署到9000+芯片的Pod级别时,TPU配合光电路交换(OCS)可把网络功耗再降30%,整机柜成本比同规模GPU集群低40–60%。Anthropic、Meta等选择与谷歌合作,正是看中长期推理成本可以比GPU方案低4倍以上。
 
中国的TPU之路
 
想要制造TPU并不简单,TPU也并非单纯的芯片,而是包含了专用架构设计、配套软件栈与编译器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大规模互联和集群调度能力以及针对深度学习训练与推理的整体工程设计。
 
而这种整体系统设计相比通用GPU更难拆解学习,这是需要跨领域积累,而非练出一块芯片就算完,TPU背后的项目是谷歌多年针对AI任务优化的结果。
 
而在TPU领域,中国方面起步较晚,到了2019年, 谷歌TPU核心架构师杨龚轶凡回国创办中昊芯英,国内才首次出现要做真正的张量处理器的创业公司。
 
并且在2021年,在北京大学、清华等高校团队配合下,中昊芯英完成自研指令集、脉动阵列RTL和12nm物理设计,流片前夕拿到10亿元的融资。
 
2023年,首颗训练级TPU“刹那®”一次流片成功,算力可以达到A100的1.5倍,功耗降低30%,单位成本只有A100的42%,并且实现了量产交付,也让中国首次拥有了可商用的TPU芯片。
 
而到了2024年,基于“刹那”打造的千卡集群“泰则®”在长三角、京津冀两地上线,实测可稳定训练千亿参数模型;太极股份、浙数文化、艾布鲁等上市公司先后入股,形成“芯片+系统+云运营商”小生态。
 
今年,天津移动TPU智算中心点亮,标志着国产TPU完成“单卡→整机柜→智算中心”三级跳,开始对外提供商业化算力服务,官方称同等精度下推理成本比GPU低40–60%。
 
值得注意的是,除了与运营商、智算中心协同部署能力,中昊芯英不仅做芯片,还在构建支撑国产大模型运行的软硬件栈,并且在行业生态中逐渐建立合作,让产品从芯片实现向算力服务能力迈进。
 
此前,中昊芯英创始人杨龚轶凡表示,目前实现高性能TPU AI芯片量产与交付的主要是该公司。同时,该公司是少数已盈利的AI芯片企业,盈利源于国家支持国产化进程以及创新带来的高性价比产品结构。
 
据了解,中昊芯英保持着“一年一芯、一年两栈”节奏,第二代7nm芯片已在实验室回片,配套软件栈同步开发,预计2026年Q2规模出货;软件侧每季度滚动发版,持续追加PyTorch 2.x新算子与MoE并行策略。
 
这不仅是中国在高性能AI处理器路径上的突破性成果之一,也能减少对国外AI算力产品的依赖、增强自主可控能力具有战略意义,对国内AI算力生态建设是一种实质推动。
 
总结
 
TPU的发展,本质上是AI算力需求与硬件供给之间矛盾不断突破的历程,从最初解决 算力危机 的专用推理芯片,到支撑大模型训练的 AI超算,再到如今面向生成式AI的推理引擎,TPU发展始终围绕着性能、能效、架构创新持续突破。正是TPU提供的超算级算力,让大语言模型、多模态生成等前沿AI成为可能,推动AI从实验室研究走向产业落地和消费级应用。
 
而随着中昊芯英等国内企业推出了真正的高性能TPU芯片,其重要性不在于短期能否完全超越英伟达或谷歌,而是为国内AI算力提供一个可自主控制的高级方向,推动国产算力生态成长,包括算力集群部署、模型适配、本地数据中心落地,这类战略意义比单纯单项性能更重要。
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 相关推荐
  • 热点推荐
  • TPU

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分