随着AI等新一代数字技术的蓬勃发展,高性能计算(HPC)正逐渐从高精尖科研领域走向更多行业,企业侧的应用场景日益丰富。据Hyperion Research预测,云端HPC市场的增长速度将是本地服务器市场的两倍多,预计到2027年,其市场规模将超过140亿美元。
在这一背景下,阿里云智能集团副总裁吴结生表示,当前高性能计算的负载正呈现出多样化发展趋势,已广泛应用于基础模型预训练、自动驾驶、生命科学、工业制造和半导体芯片等多个行业和领域。然而,传统HPC因其高昂的成本和复杂的运维难度,使得许多企业望而却步。
为了破解这一难题,阿里云推出了Cloud HPC解决方案,以云计算的模式让高性能计算更加便捷地应用于更多企业。Cloud HPC具备四个显著优势:弹性分配资源、异构计算兼容性强、快速部署能力以及平台化的数据处理生态。
以汽车研发为例,Cloud HPC通过弹性高性能计算集群和并行文件存储系统,免除了数据的频繁挪动,提升了整个系统的能力,从而加快了产品研发进程。云上的高性能计算还能借助整个云平台,将计算、存储、网络和安全等方面的能力叠加起来,形成综合优势。
面对算力需求的多样性,阿里云通过多样化的产品、系统架构和技术方案,满足不同负载对计算能力、存储性能和网络带宽等方面的差异化需求。在松耦合场景下,阿里云借助自身积累的云资源规模和创新的CIPU(云基础设施处理器)架构,提供E-HPC Instant服务,满足用户对高性价比和弹性算力的需求。在紧耦合场景下,阿里云推出了E-HPC平台,同时管理HPC的Slurm集群和AI的ACK(K8s)集群,满足企业对于高性能计算的需求。
特别是在AI时代,大模型的训练场景对高性能计算提出了更高的要求。阿里云灵骏集群采用HPN 7.0的网络架构,通过一系列创新支持更大的规模、更优的效率和更高的稳定性。同时,阿里云还提供了高性能的并行文件系统CPFS,满足训练和推理的超高性能和成本优化要求。
CIPU架构作为阿里云基础设施的基石,是实现0虚拟化开销、提升IO和存储性能的关键。阿里云已经推出了2.0版本的CIPU架构,整机稳定性提升20%,带宽性能可达400Gbps,VPC可达6000万pps,弹性RDMA可达5000万message/s,存储性能可达360万IOPS,50GB/s,这些性能均达到业内领先水平。
展望未来,每一家公司都将成为数据+AI的公司,云计算将继续践行Scaling Law,高性能计算也将焕发新的动能。阿里云等云计算厂商将不断创新,提供多元化的产品组合,帮助企业在不同负载场景中落地应用,实现智能化创新。
全部0条评论
快来发表一下你的评论吧 !