蚂蚁集团AI创新研发部门NextEvo近日宣布,他们将全面开源AI Infra技术,以推动AI研发效率的提升。该技术框架名为DLRover,目标在于实现大规模分布式训练的智能化。
DLRover技术能够帮助大模型千卡训练实现高效运行,有效时间占比超过95%。这意味着在训练过程中,大部分时间都能够得到充分利用,而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”,该技术能够显著提高AI研发的效率。
为了进一步提高大模型训练的效率和稳定性,NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint(FCP)方案。在模型训练过程中,通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而,常规的Checkpoint做法存在一些缺点,如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。
针对这些问题,FCP方案进行了优化。通过应用FCP方案,在千卡千亿参数模型训练中,Checkpoint导致的训练浪费时间降低了约5倍。此外,持久化时间降低了约70倍,有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性,进一步推动了AI技术的发展。
蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流,这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果,为人工智能的发展做出更大的贡献。
全部0条评论
快来发表一下你的评论吧 !