沐曦加速DeepSeek满血版单卡C500异构推理

描述

近日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩,相比社区官方数据提升20%以上。

相比国际高端GPU八卡满血版部署方案,本项目在单并发性能上具有极高的性价比。

KTransformers项目介绍

KTransformers (https://github.com/kvcache-ai/ktransformers)是由清华大学 KVCache.AI 团队联合趋境科技开源的一套轻量化高性能模型推理框架,能够在计算资源受限的场景下,通过 CPU/GPU 异构推理的方式更快速、更高效地实现大模型的本地推理。KTransformers旨在作为一个开放的平台,用于试验创新的大型语言模型(LLM)推理优化方案。同时,KTransformers也计划演进成本地化中小并发场景下针对稀疏MoE模型最具性价比的开源推理引擎,以及成为一个算子级优化的集成实验平台。沐曦正在做的工作非常符合开源社区和KTransformers开源项目的发展。

开源合作内容介绍

沐曦和KVCache.AI团队合作,通过对KTransformers模型框架进行细致的分析和调整,团队成功达成了曦云C500与KTransformers的无缝对接,为进一步性能优化奠定了坚实的基础。

完成基本功能适配后,沐曦研发团队继续对整个框架进行了优化。在深入研究了DeepSeek R1满血版模型的计算特点和性能瓶颈,结合曦云C500的优势,采用了一系列先进的技术和算法,详细如下:

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;

2加入了GPU fused MoE功能,该功能有效利用曦云C500 64GB的高带宽显存和高速FP16/BF16运算能力,提升推理性能;

3配合自动/手工算子融合技术,高效的FP16/BF16精度Marlin算子(W4A16),以及经过深度优化的mcBLAS、PyTorch库、FlashInfer库。

此次合作不仅为KTransformers带来了性能上的提升,更体现了开源共创的价值:不同的团队和开发者通过资源共享、经验交流,共同推动技术的进步。沐曦和清华大学KVCache.AI团队的合作就是很好的例子,通过开源仓库汇聚了各自的优势,实现了技术上的突破,也为后续持续在开源社区推理优化提供了合作基础。

通过开源社区的共同努力,KTransformers将不断提升其性能和功能,为更多的用户提供优质的服务。同时,这也将促进整个人工智能行业的发展,推动技术的不断创新。单卡打开DeepSeek R1满血版并不断地提升性能只是一个开始,在开源共创的道路上,我们将迎来更多的惊喜和突破,共同开创国产算力生态和人工智能的无限未来。

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案,打造全栈GPU芯片产品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染,满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分