微软AI自研芯片与H100、特斯拉D1性能对比

人工智能

629人已加入

描述

微软正式发布了两款芯片,不知道它们是不是传说中的Athena。

北京时间周四凌晨1点,微软(Microsoft)Ignite技术大会在西雅图揭幕,该公司CEO萨蒂亚·纳德拉进行了接近1个小时的开幕演讲,介绍了AI龙头取得的最新进步。

此次,微软发布了首款自家研发的人工智能(AI)芯片Maia 100,以及应用于云端软件服务的芯片Cobalt。两款芯片将由台积电代工,采用5nm制程技术。

目前,AI芯片市场由英伟达(Nvidia)独霸,有大量AI芯片需求的科技大厂极力寻求可替代的供应来源; 微软自行研发,希望增强ChatGPT等生成式AI产品的性能,同时降低成本。

Cobalt是基于Arm架构的通用型芯片,具有128个核心,Maia 100为特定AI加速器,用于云端训练和推理的,晶体管数量达到1050亿个。这两款芯片明年将导入微软Azure数据中心,支持OpenAI、Copilot等服务。

目前,英伟达在AI芯片市场的市占高达80%左右,需求强劲,高端产品一颗有时可卖到3万到4万美元。日经亚洲指出,用于ChatGPT的芯片被认为大概就需要有1万颗,这对AI公司是个庞大成本。

负责Azure芯片部门的副总裁Rani Borkar表示,微软已开始用Bing和Office AI产品测试Maia 100芯片,微软主要AI合作伙伴、ChatGPT开发商OpenAI,也在进行测试中。

彭博资讯指出,微软的多年投资显示,芯片对于在AI和云计算领域取得优势至关重要。自研芯片可以让微软从硬件中获得性能和价格优势,还可以避免微软过度依赖任何一家供应商。目前业界对英伟达AI芯片的争夺战,更加凸显了这个问题。

在微软进军自研处理器之前,在云计算市场上的竞争对手也采取类似策略。亚马逊在2015年收购了一家芯片制造商,并提供多种云端运算与AI芯片服务。Google 从2018年开始,也已让客户使用其AI加速处理器。

除了发布的这两款芯片,业界一直在传,微软有一个代号为“Athena”的AI芯片项目,2019年就开始了内部研发。据悉,微软希望Athena芯片的性能优于目前从其它供应商处购买的芯片,从而节省其在昂贵的AI业务上的时间和成本。

有市场评论认为,微软 AI 芯片立项的时机很巧,正好在微软、OpenAI 等公司培养的大型语言模型已经开始腾飞之际。两位知情人士表示,OpenAI的ChatGPT聊天机器人的发布让人们兴奋──根据分析师预估,截至今年1月,也就是ChatGPT发布两个月后,该机器人已经拥有超过1亿用户──这促使微软加快Athena的研发和推出。

知情人士说,微软最快可以在明年让 Athena 在公司和 OpenAI 内部广泛使用。不过其中一名知情人士表示,微软内部仍在争论是否会向其 Azure 云计算服务的客户提供这些芯片。

如果微软确实走向其云计算客户提供芯片,它还必须为其打造比英伟达当前产品更具吸引力的软件,英伟达在该领域已深耕15年,其软件产品已在全球广泛使用。

调研公司SemiAnalysis的首席分析师Dylan Patel估算,ChatGPT的运营成本为每天约70万美元或每次查询0.36美元。Patel 说:“大部分成本来自其所需的昂贵服务器。和英伟达产品相比,若 Athena 具竞争力,可以将每个芯片的成本降低三分之一。”

Patel 还表示,微软希望他们在所有的应用程序中都使用这个大型语言模型,包括 Bing、Microsoft 365 和 GitHub。如果采用英伟达现成的软件进行大规模部属,光芯片这一项成本每年就要烧掉数百亿美元。

微软并不认为自己的 AI 芯片可以广泛替代英伟达的产品。有分析认为,微软的这一努力如果成功的话,也有可能帮助它在未来与英伟达的谈判中更具优势。

此次,微软还推出了名为 Sidekicks 的定制液冷硬件,该硬件安装在包含 Maia 服务器的机架旁边的机架中。一位发言人表示,该公司无需改造即可安装服务器机架和 Sidekick 机架。

在网络连接方面,为了满足AI和未来工作负载的要求,微软推出了新一代空芯光纤(Hollow Core Fiber),利用空气作为光纤的导光介质,能够将传输速度提高47%。当然这也与微软的“钞能力”有关,公司在去年12月底收购了这条赛道的领跑者英国Lumenisity。

会上,纳德拉宣布Azure Boost数据中心硬件也将正式投入商用。该系统能够将存储和网络进程将主机转移到专用硬件和软件上,从而提高速度。

据千芯科技董事长陈巍博士分析,就Maia 100性能来看,MXFP4算力达到了3200TFLOPS,MXInt8算力达到1600TFLOPS(这里有可能是新闻笔误,因为INT8算力一般按照TOPS单位)。SIMD算力为48TFLOPS,具备140MB L1缓存和448MB L2缓存,HBM3容量为64GB,TDP功耗860W,采用TSMC N5工艺,面积820mm^2,105BIllion晶体管。

服务器

  对比一下Maia 100和其他几个家世显赫的芯片性能,可以看到Maia具有大量的片上SRAM(单芯片合计588MB),甚至超过了特斯拉D1,有可能是存算一体(近存计算)架构的AI DSA。初步猜测其架构和液冷方式与特斯拉Dojo接近。

紧密联系合作伙伴

基于微软与AI软件龙头OpenAI的紧密关系,所以微软Azure云服务也将在第一时间向用户提供OpenAI的最新产品,例如GPT-4 Trubo和多模态能力,以及基于GPT-4的微调。

微软也在今天宣布推出“MAAS”产业模式(Models as a Service/模型即服务),用户可以直接通过微软的服务来调用API、微调和部署各类开源大模型。微软也已经与Meta等一众大模型开发商达成合作,将Llama 2等知名LLM作为一项服务推出。

纳德拉宣布,Azure云将发布英伟达的AI工坊服务(AI foundry service),为此他还请来了黄仁勋,讲述两家AI巨头从硬件到软件的全面合作。

据悉,英伟达AI工坊涵盖英伟达的AI基础模型、NeMo框架和工具,以及英伟达DGX Cloud AI超级计算和服务三大要素。微软用户将可以在Azure云上利用英伟达的AI软件生成并部署模型。

黄仁勋表示,AI的第一波浪潮源自OpenAI等一批创业公司,而现在整个产业已经进入了第二波浪潮,由微软Copilot推动的企业级AI。在他看来,第三波也是最大的那一波将会是整个世界的重工业数字化,并从生成式AI中获益。

审核编辑:黄飞

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分