亚马逊发布新一代AI芯片Trainium3,性能提升4倍
电子发烧友网报道(文/李弯弯)在拉斯维加斯举办的2025年亚马逊云科技re:Invent全球大会上,亚马逊云科技(AWS)推出新一代人工智能(AI)训练芯片Trainium 3,预告了下一代产品Trainium 4的开发计划。亚马逊表示,这款芯片能够比英伟达市场领先的图形处理单元(GPU)更便宜、更高效地驱动AI模型背后的密集计算。

作为亚马逊首款3纳米工艺AI芯片,Trainium3的核心突破在于性能、能效与扩展性的全面跃升。其计算性能较前代Trainium2提升4.4倍,内存带宽与能效分别增加4倍和40%,单芯片集成144GB高带宽内存(HBM3e),提供2.52FP8 PFLOPs算力。这一性能飞跃得益于三大技术创新:
3纳米制程工艺:晶体管密度提升70%以上,相同面积下集成更多计算单元,能效比提升40%,单位算力能耗降低40%。
Neuron Fabric互联技术:单台Trn3 UltraServer可集成144颗芯片,通过EC2 UltraClusters 3.0架构扩展至百万颗芯片集群,规模较上一代提升10倍,时延降低4倍。
智能功耗管理:动态调节供电频率,高负载时提升计算核心性能,空闲时降低功耗,平衡性能与能效。
实测数据显示,Trainium3在训练OpenAI GPT-OSS模型时,单芯片吞吐量提升3倍,推理响应速度提升4倍,训练成本降低50%。
Trainium3的登场并非孤立事件,其前代产品Trainium2已为亚马逊AI芯片生态奠定基础。作为AWS在2024年推出的第二代AI训练芯片,Trainium2采用多核架构设计,支持高并发计算,峰值性能达每秒数千亿次浮点运算,性价比较GPU实例提升30%-40%。
其核心优势包括,定制化硬件优化,针对Transformer架构设计注意力机制加速单元,大语言模型训练效率提升40%。NeuronLink超速互联,通过低延迟网络连接4个Trn2服务器,形成83.2Petaflops算力的UltraServer,支持超大规模模型训练。生态兼容性,支持TensorFlow、PyTorch等主流框架,无缝迁移现有模型,降低技术门槛。
Trainium2的商业化已取得实质进展。Adobe、Poolside等企业利用其训练和部署AI模型,Anthropic的“Project Rainier”项目更通过数十万颗Trainium2芯片构建超级集群,算力较前代提升5倍。

AWS在发布Trainium3的同时,预告了下一代芯片Trainium4的研发进展,其核心突破在于与英伟达生态的深度整合。支持英伟达GPU与Trainium芯片高速互联,形成机架级AI基础设施,兼顾性能与成本。FP8算力提升3倍,FP4算力提升6倍,内存带宽提升4倍,模型训练与推理吞吐量至少提升3倍。通过持续软硬件协同,实际性能提升将远超基准数值,降低客户迁移成本。
这一战略调整直指AI芯片市场的核心矛盾:性能竞争与生态壁垒。尽管Trainium3内存容量(144GB)较谷歌TPU(192GB)和英伟达Blackwell(288GB)存在差距,但通过与英伟达的合作,AWS试图在保持性价比优势的同时,吸引依赖英伟达生态的客户迁移至Trainium平台。
亚马逊的芯片战略已初见成效。截至2024年,Trainium系列在AWS数据中心部署速度超预期,Anthropic计划年底使用超百万颗Trainium2芯片。对于客户而言,Trainium3的性价比优势显著。其一成本降低,与GPU系统相比,训练和推理成本最高降低50%,碳排放减少40%。其二弹性扩展,支持从单芯片到百万芯片集群的无缝扩展,满足不同规模需求。其三行业适配,覆盖金融风控、医疗影像分析、自动驾驶等高并发场景,推动AI技术商业化落地。
然而,挑战依然存在。亚马逊需进一步丰富软件库生态,吸引更多第三方开发者采用Trainium平台。对此,AWS通过提供Neuron SDK开发套件、性能分析工具等,降低模型迁移门槛,同时以Trainium4的生态兼容性为长期竞争力铺路。
全部0条评论
快来发表一下你的评论吧 !