昆仑芯超节点亮相,单卡性能提升95%

描述

电子发烧友网综合报道 11月13日,2025百度世界大会举办,在同期开展的“百度世界展区”内,百度昆仑芯超节点公开亮相。同时,百度发布了天池超节点的后续规划:天池256超节点将于 2026上半年上市;天池512超节点将于 2026下半年上市,最高支持512卡互联、卡间互联总带宽提升1倍、单节点即可完成万亿参数模型训练。
 
昆仑芯片
 
早在今年4月首次亮相之后,昆仑芯超节点就已在百度百舸5.0中全面启用,并接入百度智能云公有云服务。百度表示,借助该节点,目前业界最大规模的1万亿参数开源模型可以在几分钟内、通过单一云实例完成运行。
 
昆仑芯超节点,通过将多张昆仑芯AI加速卡整合为统一的超节点架构,在DeepSeekV3/R1PD分离推理架构的优化下实现了单卡性能提升95%,单实例推理性能大幅提升高达8倍。
 
在2025年8月28日的百度云智大会上,百度智能云宣布其AI计算基础设施全面升级,正式发布百舸AI计算平台5.0版本。此次升级在网络、算力、推理系统及训推一体系统四个方向上实现了重大突破,旨在打破AI计算效率瓶颈。
 
其中,昆仑芯超节点的正式上线成为算力升级的关键一环。
 
百舸5.0在网络层面进一步降低了通信延迟、提升了数据传输效率,从而加速了大模型的训练与推理过程。算力层面,昆仑芯超节点的接入为平台带来了强大的算力支持。推理系统通过“解耦”“自适应”和“智能调度”三大策略,有效提升了吞吐量并降低了延迟。训推一体方面,平台发布的百舸强化学习框架,进一步强化了算力利用率。
 
百度依托昆仑芯P800及昆仑芯超节点,为企业构建了坚实可靠的算力底座。在大规模训练场景中,昆仑芯P800已完成超大规模集群实践验证,在国内率先实现自研32,000卡集群的规模化部署,有效训练效率超过98%,助力企业以更低成本、更短周期训练出性能更优、经济性更好的模型。
 
在推理加速方面,P800通过架构层面创新,实现单卡吞吐能力提升4倍,并将百万token推理成本降至几元级别,显著提升了高并发场景下的推理性能与经济效益。在生态易用性上,P800广泛支持国内外主流大模型、开发框架与算子库,极大降低了迁移适配成本,提升了开发部署效率。
 
在2025百度世界大会,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,百度将发布全新一代昆仑芯M100及昆仑芯M300。其中,M100针对大规模推理的场景做了优化,充分发挥昆仑芯自研架构的优势,使得MOE模型的推理性能能够大幅提升,该芯片预计在2026年初上市。昆仑芯M300会在2027年的年初上线,该芯片主要是针对超大规模的、多模态大模型的训练和推理做了深入的优化,性能更强。
 
百度还公布了昆仑芯的未来五年路线图:百度天池千卡级超节点2028年上市;昆仑芯N系列2029年上市;百度百舸百万卡昆仑芯单集群2030年点亮。
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分