蚂蚁集团AI研发部门开源AI Infra技术,助力大模型训练效率提升

描述

蚂蚁集团AI创新研发部门NextEvo近日宣布,他们将全面开源AI Infra技术,以推动AI研发效率的提升。该技术框架名为DLRover,目标在于实现大规模分布式训练的智能化。

DLRover技术能够帮助大模型千卡训练实现高效运行,有效时间占比超过95%。这意味着在训练过程中,大部分时间都能够得到充分利用,而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”,该技术能够显著提高AI研发的效率。

为了进一步提高大模型训练的效率和稳定性,NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint(FCP)方案。在模型训练过程中,通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而,常规的Checkpoint做法存在一些缺点,如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。

针对这些问题,FCP方案进行了优化。通过应用FCP方案,在千卡千亿参数模型训练中,Checkpoint导致的训练浪费时间降低了约5倍。此外,持久化时间降低了约70倍,有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性,进一步推动了AI技术的发展。

蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流,这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果,为人工智能的发展做出更大的贡献。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分