可编程逻辑
(文章来源:电子工程专辑)
从Arria 10 GX,到Stratix 10 SX/TX、N3000,再到全新一代Agilex FPGA,英特尔在过去的18个月内,宣布了很多的FPGA可编程加速卡(PAC)平台解决方案,实现了对5G边缘/网络和数据中心服务器加速业务的全面覆盖。在此基础上,英特尔日前再度宣布出货全新Stratix 10 DX FPGA产品。
按照英特尔内部对产品的定位,GX系列属于面向众多市场的通用型产品,TX系列主要应用于高速网络,例如速度达到58Gbps每秒的以太网,而DX系列则主要针对与至强处理器服务器的连接。例如SX就专为内嵌处理和内存密集型工作负载而构建,如流分析和视频转码。而外形较小的采用Arria 10 FPGA的英特尔PAC适用于回溯测试、数据库加速和图像处理等工作负载。
VMware是此番英特尔Stratix 10 DX的合作伙伴之一,“与VMware的合作是英特尔市场进入策略中很重要的一部分。”但英特尔公司网络和自定义逻辑事业部副总裁兼FPGA和电源产品营销总经理Patrick Dorsey说,其实早在3个月前,英特尔就已经开始出货工程级样品设备与全套开发套件和API给包括中国在内的全球客户。
众所周知,FPGA在异构计算中具体有两种加速形式,即旁路加速和内建加速。旁路加速可以将重度计算功能转移到FPGA上,从而释放处理器去处理其他功能;而如果时延比较重要,则可以进行内建加速,从而通过FPGA的多功能性带来更好的网络存储和计算的加速。
而Stratix 10 DX的独特之处恰好就在于它的高带宽与低延时。作为英特尔首个支持超路径互连(UPI)和PCI-Express(PCIe) Gen4 x16的FPGA产品,Stratix 10 DX使至强处理器与FPGA无论采用傲腾还是DDR内存,均可实现存储共享,从而极大的扩展了系统内存,避免了数据迁移和拷贝带来的高成本,同时也提升了系统性能。
这种存储扩展的效果是惊人的。数据显示,通过与特定的英特尔至强可扩展处理器组合,UPI接口可将延迟降低37%,并实现28GB/秒的理论峰值传输速率。而符合PCI-SIG标准的Gen4 x16接口则能够提供32GB/秒的理论峰值数据带宽,从而将数据中心和非数据中心应用的吞吐量大约将提高1倍以上。此外,内存控制器还支持8个独立的傲腾™ DC持久内存控制器,总容量可到4TB。
目前,至强处理器和FPGA仍然通过SiP技术封装在一起,而非集成。Patrick对此回应说,集成是大趋势,但考虑到当前客户仍然偏好于保持灵活性以便于根据需求进行各种配置和优化,未必希望全部都集成封装起来,所以英特尔暂时没有相关计划。
在数据中心里作为CPU的硬件加速器,用来加速深度学习的模型训练、金融计算、网络功能卸载等各类应用,是当前FPGA的一个主要应用场景。但该领域亟待解决的核心问题之一,就是缓存一致性。换句话说,就是必须要明确CPU与硬件加速器之间的内存互联协议。
Patrick强调称,UPI目前UPI是封闭的,只搭配至强处理器,但它为接下来完全公开的CXL路线图提供了新路径。基于英特尔技术,应用开发者、系统集成商以及各类设计人员只需要对硬件接口和一些软件进行更新,UPI就可以轻松升级到CXL。换句话说,因为硬件接口的不同,需要一个新的芯片,CXL是适配PCIe Gen5协议的接口,UPI是不同的一个接口,因此在芯片与硬件上需要更换。除了硬件之外,从开发者角度来讲,由于API应用接口略有不同,他们在进行迁移时还需要做一些其他的工作。
根据规划,为了确保高性能在线处理和处理器负载加速,英特尔下一代10nm Agilex FPGA将支持包括PCIe Gen 5和CXL在内的最新一代高性能处理器接口,并将成为首款采用Xeon可扩展处理器的一致的高速缓存和内存互联结构的FPGA。
全部0条评论
快来发表一下你的评论吧 !