国产GPGPU集体爆发!沐曦登陆科创板,龙芯也宣布了

描述


电子发烧友网报道(文/莫婷婷)通用图形处理器(GPGPU)作为融合图形处理与通用并行计算能力的协处理器,已成为AI、大数据分析等高性能计算场景的核心基础设施。目前,全球 GPGPU 市场长期由英伟达、AMD 主导。不过,随着国内对自主可控算力需求的激增,以及政策对半导体产业的持续支持,国产 GPGPU 企业加速布局GPGPU赛道,构建起多元化的技术路线与产业生态。
 
就在近日,龙芯中科在投资者交流活动中表示,公司的首款GPGPU产品9A1000已经交付流片,被称为“中国第一款纯国产GPGPU”。
 
 
从“端侧”起步,龙芯中科打造CPU+GPU协同生态

GPGPU(通用GPU)指的是面向通用计算的图形处理器,是一种利用GPU强大计算能力,完成原本由通用处理器负责计算的密集计算任务的协处理器,主要应用于计算密集型应用和运算加速领域。
 
通用GPU具有高度并行性、高内存带宽与多级缓存的特征,相较ASIC等专用型计算架构能更高效地适应算法快速更迭的环境。随着云端智算集群的需求快速扩张以及后训练、推理等阶段新模型结构的快速演变,具有更强通用性、灵活性和可扩展性优势的通用GPU仍将是未来主流的AI芯片技术路径之一。
 
作为国产CPU领域的领军者,龙芯中科近年来将战略触角延伸至GPGPU领域。其GPGPU技术路线强调将图形与AI集成于同一计算核,兼顾图形渲染、科学计算与AI加速能力,主要是从端侧做起,面向推理的应用为主,然后再增加更高性能的AI算力
 
2025年,龙芯首款独立GPGPU芯片9A1000已成功交付流片,标志着其正式进入通用GPU市场。
 
9A1000定位于入门级独立显卡,支持终端AI计算,例如无人设备或装备,图形性能大致对标AMD RX550,支持OpenGL 4.0、OpenCL 3.0等图形和计算标准,并具备40 TOPS的NPU算力、INT8 32TOPS,像素填充率:16GPixel/s,纹理填充率:32GTexel/s。相比集成于2K3000芯片中的第二代GPGPU核心LG200,龙芯9A1000在性能上实现了超过5倍的显著跃升。
 
尤为关键的是,9A1000与龙芯CPU深度协同,形成“龙芯全家桶”系统方案,在信创、工控、教育等领域实现高性价比部署。“我们争取开发9A1000的Windows驱动,使其也可以与Windows电脑配套。”龙芯中科表示
 
龙芯GPGPU的发展路径清晰:从端侧推理切入,逐步提升算力密度与通用性。龙芯第二代图形处理器核LG200在公司新一代通用SoC 2K3000中流片成功,完成 硅验证,并开展了软硬件系统开发。
 
未来,9A2000等更高性能型号将陆续推出,构建完整的GPGPU产品矩阵。据了解,高性能GPGPU 9A2000,性能较之上一代同类型产品都将大幅 度提升,其中9A2000规划的图形性能是9A1000的4倍,AI推理 性能是9A1000的8倍。
 
在2025年半年报中,龙芯中科披露,公司正在进行第三代GPGPU (结构升级)芯 片研发项目,将推出基于第三代 GPGPU 技术 的GPGPU 芯片产品,应用于云侧和边侧AI 应用、桌面和服务器图形应用等领域。
 
在软件生态方面,基于2K3000完成LG200自研GPGPU的图 形驱动、算力软件栈研发,包括Linux、开源鸿蒙、嵌入式三大操作系统平台的图形驱动研发已经完成,可无缝支持Yolo目标检测、Resnet图像识别等主流AI 推理模型。
 
 
群雄逐鹿:国产GPGPU企业的技术路线与商业化突破

除龙芯中科外,国内已形成以沐曦、壁仞科技为代表的 “GPGPU 第一梯队”,以及天数智芯、曦望 Sunrise 等专注细分领域的企业,以不同技术路径冲刺GPGPU高地,共同推动国产 GPGPU 产业成熟。值得一提的是,沐曦12月17日登陆科创板、壁仞科技冲刺港股的动作,标志着国产 GPGPU 企业进入 “资本化加速期”。
 
沐曦股份科创板“GPU第一股”,3年的营入增长40倍

沐曦股份于12月17日正式登陆科创板。其技术路线为“自主通用GPU + 兼容CUDA生态”,推出了训推一体GPU曦云C系列、智算推理GPU曦思N100 系列、图形渲染 GPU曦彩G100 系列。其中训推一体GPU板卡在2024年的营收占比达到68.99%,是主打产品。
 
沐曦是国内少数几家全面系统掌握了通用GPU架构、GPU IP、高性能GPU芯片及其基础系统软件研发、设计和量产核心技术的企业之一。截至2025年,沐曦GPU累计销量超2.5万颗,在手订单达14.3亿元,2025年前三季度营收12.36亿元,同比增速高达453.52%,商业化落地速度领先行业。2022年到2024年的营业收入复合增长率达到4074.52%。
 
此次上市沐曦股份拟募集资金39.04亿元,其中24.5亿元用于投资“新型高性能通用GPU研发及产业化项目”,包括第二代高性能通用 GPU芯片(代号C600)和第三代高性能通用GPU芯片(代号C700)两个研发 子项目,基于国产先进工艺开发具备较高性能和更高性能的两款通用 GPU,应用于AI训练及推理、通用计算等场景,是公司曦云C系列训推一体芯片的后续主力产品。
 
C600已于2024年10月交付流片,并于2025年7月回片点亮,正在进行功能测试。预计明年将实现大规模量产。C700预计将在2027年Q3完成小批次量产,在这之后完成大规模量产。
 
沐曦将在招股书中提到,这两款产品均依托于公司自主创新的核心 GPU IP 及 MXMACA软件栈,可提供混合精度算力支持,并搭载超高带宽显存,深度融合计算密度与互连系统优化技术,支持从单卡到超大规模集群的全场景加速需求, 是针对AI训练、推理及通用计算的高效解决方案。
 
 
中国GPGPU产业早已悄然起跑

国内AI芯片企业对GPGPU(通用图形处理器)赛道的布局远早于近年来的热潮,并在关键技术节点上取得实质性突破。
 
以天数智芯为例,这家成立于2015年的公司,是国内最早专注于通用GPU研发的企业之一。早在2020年12月,天数智芯便成功点亮其首款全自研、基于7nm工艺的高性能云端GPGPU芯片——天垓100,并于2021年3月正式发布。该芯片在FP16/BF16精度下实现147 TFLOPS的峰值算力,达到当时国际先进水平。凭借“通用GPU+算力系统”双轮驱动战略,天数智芯后续又推出第二款产品智铠100,构建起完整的高性能计算产品线。
 
公开数据显示,截至2022年底,天垓100累计销售订单已超5亿元,市场认可度显著。目前,业内消息亦透露,天数智芯正积极推进港股IPO进程。
 
在天数智芯之后,壁仞科技于2022年发布其BR100系列GPGPU,同样采用7nm先进工艺与CoWoS 2.5D封装技术,在FP16和FP32精度下分别达到1024 TFLOPS和128 TFLOPS的算力,性能宣称超越英伟达A100。壁仞科技的技术路径主要是通用GPU+Chiplet技术,公司推出壁砺系列GPU,7nm制程工艺,单芯片整体算力迈入PFLOPS级别,算力密度水平全球领先。
 
更关键的是,壁仞科技推出了自主原创的异构GPU协同训练方案HGCT,壁仞科技副总裁、AI软件首席架构师丁云帆表示,这是业界首次支持3种及以上(壁仞GPU+英伟达GPU+其他国产芯片)异构GPU同时训练一个大模型。目前,壁仞科技已经实现国内首个4种及以上异构芯片混训技术落地,解决了大型AI企业在算力扩容过程中面临的生态兼容与调度难题。
 
值得一提的是,壁仞科技已于12月15日完成证监会备案,拟赴港交所上市,有望成为“港股GPU第一股”。
 
目前,软件生态已经成为GPGPU的竞争核心,曦望推出的全栈自研方案全面对齐CUDA,其通用 GPGPU 芯片S2芯片为大模型推理GPGPU,兼容CUDA生态,性能对标英伟达A100,在大模型推理、多模态任务中位居国内第一梯队。
 
小结:

中国AI芯片企业在GPGPU赛道上非被动应对算力需求爆发,而是在GPGPU这一核心赛道上早有系统性布局,从芯片架构、先进制程到软件生态和商业化落地,均已形成多点突破、协同推进的发展格局。
 
从龙芯9A1000的流片成功,到沐曦、壁仞的资本突破,国产GPGPU正迎来历史性机遇,同时也释放出三大关键信号:一是国产算力体系正从CPU延伸至GPU,加速构建全栈自主的算力底座;二是软件生态成为竞争核心;三是差异化发展格局显现:龙芯科技、沐曦、壁仞科技、曦望等企业,采用多元技术路径构筑各自的“护城河”。
 
 
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分