沐曦GPU跑通DeepSeek开源代码库FlashMLA

描述

DeepSeek 开源周

今日,DeepSeek正式启动"开源周"计划,首发代码库FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2K Star!

沐曦技术团队在FlashMLA开源后迅速响应,仅用2小时即完成与沐曦GPU的适配工作,并于当日将代码提交至开源社区。本次适配成功后,MXMACA平台也可完美运行FlashMLA,这充分验证了沐曦GPGPU架构与MXMACA软件平台在生态兼容性方面的先天优势!

FlashMLA通过MLA解码优化与分页KV缓存技术等显著提升硬件利用率,可加速大语言模型解码过程,有效提升响应速度与吞吐量,尤其适用于聊天机器人等实时生成场景。沐曦在适配中应用矩阵吸收算法将低秩投影融入Flash Attention 2核函数,在保证计算效率的同时显著降低显存占用。同步构建了MXMACA自动化测试体系覆盖常规及边界场景,确保功能准确性与数值稳定性,为长文本生成等显存敏感场景提供显著性能增益。沐曦本次提交的代码不仅突破了官方实现中对Hopper架构的依赖,还新增支持64以外的多样化page size配置,大幅提升框架适用性,为开源社区带来实质性技术贡献。

明天,DeepSeek开源计划第二弹即将揭晓,敬请期待后续动态!

关于沐曦

沐曦致力于为异构计算提供安全可靠的GPU芯片及解决方案,打造全栈GPU芯片产品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染,满足“高能效”及“高通用性”的算力需求。沐曦产品均采用完全自主研发的GPU IP,拥有完全自主的指令集和架构,配以兼容主流GPU生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软硬件一体的全面生态解决方案,是“双碳”背景下推动数字经济建设和产业数字化、智能化转型升级的算力基石。

 


打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分