昆仑芯超节点亮相，单卡性能提升95%

Carol Li 2025-11-16 9842

描述

电子发烧友网综合报道 11月13日，2025百度世界大会举办，在同期开展的“百度世界展区”内，百度昆仑芯超节点公开亮相。同时，百度发布了天池超节点的后续规划：天池256超节点将于 2026上半年上市；天池512超节点将于 2026下半年上市，最高支持512卡互联、卡间互联总带宽提升1倍、单节点即可完成万亿参数模型训练。

早在今年4月首次亮相之后，昆仑芯超节点就已在百度百舸5.0中全面启用，并接入百度智能云公有云服务。百度表示，借助该节点，目前业界最大规模的1万亿参数开源模型可以在几分钟内、通过单一云实例完成运行。

昆仑芯超节点，通过将多张昆仑芯AI加速卡整合为统一的超节点架构，在DeepSeekV3/R1PD分离推理架构的优化下实现了单卡性能提升95%，单实例推理性能大幅提升高达8倍。

在2025年8月28日的百度云智大会上，百度智能云宣布其AI计算基础设施全面升级，正式发布百舸AI计算平台5.0版本。此次升级在网络、算力、推理系统及训推一体系统四个方向上实现了重大突破，旨在打破AI计算效率瓶颈。

其中，昆仑芯超节点的正式上线成为算力升级的关键一环。

百舸5.0在网络层面进一步降低了通信延迟、提升了数据传输效率，从而加速了大模型的训练与推理过程。算力层面，昆仑芯超节点的接入为平台带来了强大的算力支持。推理系统通过“解耦”“自适应”和“智能调度”三大策略，有效提升了吞吐量并降低了延迟。训推一体方面，平台发布的百舸强化学习框架，进一步强化了算力利用率。

百度依托昆仑芯P800及昆仑芯超节点，为企业构建了坚实可靠的算力底座。在大规模训练场景中，昆仑芯P800已完成超大规模集群实践验证，在国内率先实现自研32,000卡集群的规模化部署，有效训练效率超过98%，助力企业以更低成本、更短周期训练出性能更优、经济性更好的模型。

在推理加速方面，P800通过架构层面创新，实现单卡吞吐能力提升4倍，并将百万token推理成本降至几元级别，显著提升了高并发场景下的推理性能与经济效益。在生态易用性上，P800广泛支持国内外主流大模型、开发框架与算子库，极大降低了迁移适配成本，提升了开发部署效率。

在2025百度世界大会，百度集团执行副总裁、百度智能云事业群总裁沈抖透露，百度将发布全新一代昆仑芯M100及昆仑芯M300。其中，M100针对大规模推理的场景做了优化，充分发挥昆仑芯自研架构的优势，使得MOE模型的推理性能能够大幅提升，该芯片预计在2026年初上市。昆仑芯M300会在2027年的年初上线，该芯片主要是针对超大规模的、多模态大模型的训练和推理做了深入的优化，性能更强。

百度还公布了昆仑芯的未来五年路线图：百度天池千卡级超节点2028年上市；昆仑芯N系列2029年上市；百度百舸百万卡昆仑芯单集群2030年点亮。

打开APP阅读更多精彩内容