沐曦股份与SGLang开源社区联合举办技术交流Meetup

描述

6月6日,由沐曦股份联合SGLang开源社区、阿里云、龙蜥社区、腾讯云及融科资讯中心举办的“沐曦芯生,开源共创——SGLang技术交流Meetup”,在北京圆满举办。

本次Meetup不仅集结了沐曦股份、SGLang开源社区、阿里云、龙蜥社区与腾讯云的多位核心开发人员与技术专家,还定向邀请了100多名独立开发者与高校学生到场。围绕SGLang开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题,整场技术交流活动展开了深入探讨与思维碰撞。

五大主题演讲:聚焦SGLang生态,覆盖推理全技术链路

今年以来,OpenClaw“龙虾”Agent智能体风靡全球,PD分离、长上下文的KV Cache显存利用、多智能体推理成为了AI行业热议话题。本次Meetup活动共设置五场主题演讲与一场圆桌对话,从底层可观测性到上层多智能体推理架构,从社区前沿演进到落地工程实践,完整勾勒了SGLang推理生态的技术版图。

SGLang Core Maintainer(SGLang社区核心维护者)童心源率先登台,带来了《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》主题演讲。演讲系统介绍了SGLang 开源推理框架的发展历史,并重点讲解了SGLang在 PD分离、多模态模型与硬件支持、以RL/post-training(强化学习/后训练)部署等关键技术场景的创新突破,以及其在开源社区协作的进展与最新性能优化路线图。

阿里云工程师、SGLang Developer苏峰与常怀鑫则分享了题为《从全链路可观测到智能分析:AI性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了SGLang Tracing的可观测性建设历程,并结合具体案例探讨如何利用AI Agent实现SGLang框架的性能优化。

活动下半场,阿里云高级技术专家马腾上台发表了《记忆感知驱动:基于Mooncake的多智能体推理架构优化》主题演讲深入剖析了Mooncake如何以KV Cache显存为“物理工作记忆”载体,并通过PD分离架构与全局共享KV Cache显存池,实现多智能体场景“一次计算、全局共享”的记忆复用。

腾讯云高级工程师陈凯悦分享了《从社区到生产:基于SGLang HiCache + Mooncake的深度优化与企业级落地工程实践》,还原了如何将HiCache与Mooncake规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。

沐曦股份SGLang推理引擎核心开发者杨鑫压轴登场,带来《沐曦GPU对SGLang的深度适配与工程实践》主题演讲,详细介绍了SGLang在沐曦GPU上的适配流程、沐曦自研MXMACA软件栈、最新模型适配情况与性能优化实践。

针对主题演讲的硬核分享,现场观众踊跃提问,结合实际开发部署中遇到的具体问题,与嘉宾现场积极探讨各种可能的解决方案。

圆桌对话:异构算力下的推理效能革命

圆桌环节由沐曦AI研究院院长李兆石主持,童心源、常怀鑫、马腾、陈凯悦与沐曦股份SGLang项目核心开发者王志鹏五位技术专家共同参与,围绕“异构算力下的推理效能革命:SGLang前沿优化与企业落地实践”展开展开讨论。针对百万长下文的KV Cache利用策略、AI存储需求的趋势走向、AI云端与本地部署的方案选择等热点话题,圆桌嘉宾分享了各自的洞察与思考。

结语

本次SGLang技术交流Meetup是沐曦股份在开源生态建设中的一次深度实践。

作为国产高性能GPU企业,沐曦股份始终秉持“全栈自研+生态兼容”战略,围绕MXMACA软件栈持续投入上游开源社区建设。从MXMACA软件栈深度兼容SGLang、vLLM在内的40多种AI框架,到公司与阿里云、腾讯云、龙蜥开源社区等伙伴的联合创新,沐曦股份正以“技术共建者”之姿,推动国产GPU在大模型推理基础设施中的实质性落地。

面向未来,沐曦股份将持续深化与SGLang等开源社区的技术协同,在推理性能优化、模型适配广度、开发者工具链等维度加速迭代,为国产算力从“能用”走向“好用”提供坚实的底座。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分