微软于近日正式宣布大力推广自研AI芯片"迈亚200"(Maia 200),剑指大模型推理场景的成本优化。微软官方数据显示,在处理典型GPT-4级模型推理任务时,Maia 200的单位算力成本相比英伟达A100 GPU低约15%,相比H100 GPU低约10%。成本优势源自芯片架构对推理场景的深度定制:内存带宽提升20%,功耗降低12%,让每瓦算力输出更高效。
Maia 200采用台积电3纳米工艺制造,单颗芯片集成超过1400亿个晶体管,配备原生FP8/FP4张量核心。内存系统搭载216GB HBM3e高带宽内存,读写速度高达7TB/s,另配272MB片上SRAM及专用DMA引擎和数据传输架构,确保海量模型参数高效流转。
在750W的SoC热设计功耗范围内,Maia 200可提供超过10 PetaFLOPS的FP4性能和超过5 PetaFLOPS的FP8性能。微软云与AI业务负责人Scott Guthrie称其为"所有超大规模云服务商中性能最强的自研芯片",并表示Maia 200的FP4性能是亚马逊第三代Trainium的三倍,FP8性能超越谷歌第七代TPU。微软称该芯片每美元性能比当前部署的最新一代硬件提升了30%。
Maia 200目前已在微软内部Bing Chat、Copilot、Microsoft 365 Copilot及Microsoft Foundry等服务中规模化使用,运行稳定率达99.9%。芯片已部署于微软美国中部数据中心区域(爱荷华州德梅因附近),后续将扩展至美国西部3区(亚利桑那州菲尼克斯附近)及更多区域。
Azure官方透露,2025年其AI服务成本中GPU采购和运维占比超45%,Maia 200的应用有望将这一比例降至30%以内。微软计划2026年内向部分头部企业客户开放Maia 200云服务接入权限,首批覆盖金融、医疗等对推理成本敏感的行业。客户无需修改现有模型代码即可快速部署,部署时间缩短约30%。
Maia SDK已于5月21日同步开放预览,包含PyTorch集成、Triton编译器、优化内核库及Maia底层编程语言访问权限,开发者可在代码生命周期早期阶段优化效率。
微软CEO纳德拉明确表示,公司将坚持"自研+外购"双轨策略,会继续向英伟达和AMD采购芯片,维持与两家公司的紧密合作。Maia 200并非要替代英伟达,而是在推理这一AI成本占比最高的环节(麦肯锡报告指出推理成本占企业AI总支出60%以上)构建自主可控的算力底座。
据The Information报道,Anthropic正与微软就租用Maia 200芯片驱动的服务器展开谈判,旨在获取更多算力以应对旗下Claude模型日益增长的推理需求。若谈判成功,微软将赢得首个极具分量的外部客户,为其在自研芯片领域追赶谷歌和亚马逊的努力注入一剂强心针。
与此同时,英伟达并未坐视挑战。据《华尔街日报》报道,英伟达计划在6月GTC大会发布新款推理GPU,针对云服务商需求优化成本与功耗;AMD的MI300X芯片也在积极拓展云服务市场,与Maia 200形成直接竞争。AI芯片自主化已成为云服务商提升竞争力的核心策略,Maia 200的推出无疑将加速这一格局的演变。
全部0条评论
快来发表一下你的评论吧 !