12月3日-5日,中国电信在广州举办“2024数字科技生态大会”,本届大会以“AI赋能 共筑数字新生态”为主题,在“科技创新合作论坛”上,壁仞科技联合中国电信研究院、江苏电信、中兴通讯、上海人工智能实验室等发布了“智算异构四芯混训解决方案”,打造算力、网络、平台、通信库、框架全栈异构方案,实现异构算力的互联互通、互调互算,基于壁仞科技、英伟达等GPU完成四款异构芯片混合训练同一个大模型的测试验证,突破大模型算力孤岛难题,引领业界异构混训技术发展趋势。
面对高端算力供应紧张、国产芯片百花齐放、智算中心扩容混建等导致的异构算力孤岛问题,壁仞科技联合中国电信等共同打造异构多芯混池训练解决方案,开创算力使用新模式,缓解因不同芯片体系架构及软件生态存在较大差异性,导致异构算力聚合困难,无法实现“超大算力”统一供给的挑战。异构多芯混合训练主要面临异构网络易拥塞、异构芯片互联互通难、异构芯片混训木桶效应等三大挑战。
异构多芯混训解决方案,实现了统一RDMA网络拥塞控制、统一异构集合通信库、统一异构训练框架。针对异构网络易拥塞问题,构建统一RDMA网络拥塞控制机制,支持RDMA多链路异构端网协同拥塞控制,跨异构芯片并行通信性能相比通用流量调度提升30%;针对异构芯片互联互通难问题,构建统一异构集合通信库,屏蔽底层异构芯片差异,业界首次通过GDR(GPUDirect RDMA)实现高速低延时异构通信,异构通信效率大于98%;针对异构芯片混训木桶效应问题,构建统一异构混合训练框架,通过异构芯片算力感知进行非均匀拆分优化,支持国际主流模型LLaMA-2、中国电信自研TeleChat等大模型,四芯混训效率可达同构训练效率的95%,实现异构算力芯片高效互联互通及算力聚合。
此前壁仞科技的壁砺系列通用GPU算力产品已经在中国电信落地千卡集群并开展商业化落地应用,另外在中国电信集团新一轮国产化GPU集采项目中,壁仞科技的主流GPU产品已经纳入中国电信的集采名录,成为中国电信的主要GPU供应商。国产GPU加快落地的过程中正在在逐步扩大算力规模,为破解这一过程中的“大模型算力孤岛”难题,壁仞科技一直在积极开展异构GPU协同训练技术攻关,在2024年9月发布的自主原创异构GPU协同训练方案HGCT中,已率先支持3种及以上异构GPU混合训练同一个大模型,用一套统一方案支持多种不同厂商、不同型号的GPU,而且一行代码适配多种框架。
此次,壁仞科技携手中国电信等合作伙伴取得新的突破,完成异构四芯混训测试验证,共同打造异构算力生态,借助中国电信“大息壤”平台算网一体化调度核心能力及中国电信智算拉远方案,突破单集群异构限制,整合国产芯片扩大单一算力池规模,形成更大规模算力能力,提升大模型能力上限,推动国产GPU产业和大模型产业发展与繁荣。
全部0条评论
快来发表一下你的评论吧 !