沐曦股份与SGLang开源社区联合举办技术交流Meetup

沐曦MetaX 2026-06-10 283

描述

6月6日，由沐曦股份联合SGLang开源社区、阿里云、龙蜥社区、腾讯云及融科资讯中心举办的“沐曦芯生，开源共创——SGLang技术交流Meetup”，在北京圆满举办。

本次Meetup不仅集结了沐曦股份、SGLang开源社区、阿里云、龙蜥社区与腾讯云的多位核心开发人员与技术专家，还定向邀请了100多名独立开发者与高校学生到场。围绕SGLang开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题，整场技术交流活动展开了深入探讨与思维碰撞。

五大主题演讲：聚焦SGLang生态，覆盖推理全技术链路

今年以来，OpenClaw“龙虾”Agent智能体风靡全球，PD分离、长上下文的KV Cache显存利用、多智能体推理成为了AI行业热议话题。本次Meetup活动共设置五场主题演讲与一场圆桌对话，从底层可观测性到上层多智能体推理架构，从社区前沿演进到落地工程实践，完整勾勒了SGLang推理生态的技术版图。

SGLang Core Maintainer（SGLang社区核心维护者）童心源率先登台，带来了《SGLang Roadmap：面向大模型与多模态模型的高性能开源推理系统》主题演讲。演讲系统介绍了SGLang 开源推理框架的发展历史，并重点讲解了SGLang在 PD分离、多模态模型与硬件支持、以RL/post-training（强化学习/后训练）部署等关键技术场景的创新突破，以及其在开源社区协作的进展与最新性能优化路线图。

阿里云工程师、SGLang Developer苏峰与常怀鑫则分享了题为《从全链路可观测到智能分析：AI性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了SGLang Tracing的可观测性建设历程，并结合具体案例探讨如何利用AI Agent实现SGLang框架的性能优化。

活动下半场，阿里云高级技术专家马腾上台发表了《记忆感知驱动：基于Mooncake的多智能体推理架构优化》主题演讲深入剖析了Mooncake如何以KV Cache显存为“物理工作记忆”载体，并通过PD分离架构与全局共享KV Cache显存池，实现多智能体场景“一次计算、全局共享”的记忆复用。

腾讯云高级工程师陈凯悦分享了《从社区到生产：基于SGLang HiCache + Mooncake的深度优化与企业级落地工程实践》，还原了如何将HiCache与Mooncake规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。

沐曦股份SGLang推理引擎核心开发者杨鑫压轴登场，带来《沐曦GPU对SGLang的深度适配与工程实践》主题演讲，详细介绍了SGLang在沐曦GPU上的适配流程、沐曦自研MXMACA软件栈、最新模型适配情况与性能优化实践。

针对主题演讲的硬核分享，现场观众踊跃提问，结合实际开发部署中遇到的具体问题，与嘉宾现场积极探讨各种可能的解决方案。

圆桌对话：异构算力下的推理效能革命

圆桌环节由沐曦AI研究院院长李兆石主持，童心源、常怀鑫、马腾、陈凯悦与沐曦股份SGLang项目核心开发者王志鹏五位技术专家共同参与，围绕“异构算力下的推理效能革命：SGLang前沿优化与企业落地实践”展开展开讨论。针对百万长下文的KV Cache利用策略、AI存储需求的趋势走向、AI云端与本地部署的方案选择等热点话题，圆桌嘉宾分享了各自的洞察与思考。

结语

本次SGLang技术交流Meetup是沐曦股份在开源生态建设中的一次深度实践。

作为国产高性能GPU企业，沐曦股份始终秉持“全栈自研+生态兼容”战略，围绕MXMACA软件栈持续投入上游开源社区建设。从MXMACA软件栈深度兼容SGLang、vLLM在内的40多种AI框架，到公司与阿里云、腾讯云、龙蜥开源社区等伙伴的联合创新，沐曦股份正以“技术共建者”之姿，推动国产GPU在大模型推理基础设施中的实质性落地。

面向未来，沐曦股份将持续深化与SGLang等开源社区的技术协同，在推理性能优化、模型适配广度、开发者工具链等维度加速迭代，为国产算力从“能用”走向“好用”提供坚实的底座。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台，为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑，助力数字经济发展。

打开APP阅读更多精彩内容