异构混训整合不同架构芯片资源,提高算力利用率

描述

电子发烧友网报道(文/李弯弯)随着AI技术的飞速发展,大模型的训练和推理任务对算力的需求日益增长。然而,单一品牌的芯片往往难以满足所有需求,且可能存在供应链风险。因此,异构芯片混训成为了一种重要的解决方案。通过混合使用多种异构芯片,可以充分利用不同芯片的优势,提高算力利用率,降低算力成本,并推动AI技术的广泛应用。
 
异构混训能够整合不同架构芯片资源
 
在2024年世界人工智能大会AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了全球首个千卡规模异构芯片混训平台,千卡异构混合训练集群算力利用率最高达到了97.6%。
 
同时,无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。通过Infini-AI云平台,用户可以在异构算力资源上实现高效的模型训练和推理,从而加速AI应用的开发和部署。
 
据称,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定使用异构算力,还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型。
 
异构混训平台具有多样化算力资源、高效算力分配、灵活性与可扩展性、降低总体拥有成本(TCO)、推动技术创新和生态整合等特点。
 
具体来看,异构混训平台能够整合来自不同厂商、不同架构的芯片资源,这些芯片在各自擅长的领域具有不同的性能优势。通过智能的调度算法和任务分发机制,异构混训平台能够根据任务的特性和需求,将最适合的算力资源分配给相应的芯片,从而实现算力资源的最大化利用。
 
异构混训平台支持多种芯片和算法的组合使用,能够灵活应对不同规模、不同复杂度的训练任务。同时,它也具备较高的可扩展性,能够根据实际需求进行算力资源的动态扩展。通过整合不同架构的芯片资源,避免对单一硬件平台的过度依赖,异构混训平台能够降低供应链风险,并通过提高算力利用率和训练效率来降低总体拥有成本。
 
异构混训平台为AI技术创新提供了更加广阔的舞台,通过整合不同芯片和算法的优势资源,可以激发更多的创新灵感和技术突破。同时,它也有助于打破不同硬件生态系统之间的壁垒,促进生态整合与协同发展。
 
异构混训在AI领域的需求日益凸显
 
近年来,随着人工智能技术的不断发展,大模型的参数量急剧增加,从十亿、百亿到千亿甚至万亿级别。以ChatGPT、LLama等为代表的大模型技术正持续推动社会变革,引发新一轮人工智能热潮。这些大模型具有数千亿甚至上万亿参数规模,单个计算节点无法满足训练需求,训练过程耗时巨大。
 
面对如此庞大的模型,传统的同构算力集群已经无法满足训练需求。即使采用分布式训练框架,也需要充分整合可调动的算力资源进行分布式并行加速。然而,由于不同厂商的智算芯片之间存在计算架构、缓存资源、互联方式等诸多差异,以及AI计算框架与各厂商基础软件栈深度绑定,导致多种智算芯片难以协同工作,限制了算力资源的充分利用。
 
异构芯片混训成了解决算力限制的重要方式,目前已经有诸多应用案例。如,医疗机构采用异构芯片混训平台,将NVIDIA GPU、Intel CPU以及华为昇腾AI处理器等多种芯片混合使用。通过平台的高效调度和算力分配,实现了对医学影像数据的快速处理和分析。
 
异构芯片混训平台能够显著提高了医疗影像分析系统的处理速度和精度,为医生提供了更加准确和及时的诊断支持。
 
自动驾驶汽车研发公司采用异构芯片混训平台,将AMD GPU、NVIDIA GPU以及专用AI加速器等多种芯片混合使用。通过平台的异构并行训练能力,实现了对自动驾驶算法模型的高效训练和优化。
 
异构芯片混训平台能显著提高自动驾驶算法模型的训练速度和精度,为自动驾驶汽车的研发提供了有力支持。同时,通过降低算力成本和提高资源利用率,也可以帮助公司加快自动驾驶技术的商业化进程。
 
写在最后
 
当然,在异构芯片混训过程中,可能会面临一些技术挑战,如不同芯片间的通信问题、性能差异等。为了解决这些问题,可以采取相应的措施,如建立通用的集合通信库,实现不同种芯片的高效通信,兼容多种硬件;提出基于流水线并行的非均匀拆分方案,解决不同硬件效率不一样的问题,针对自身情况分配最适合的任务等。
 
 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分