蚂蚁集团AI研发部门开源AI Infra技术，助力大模型训练效率提升

CHANBAEK 2024-02-04 1117

描述

蚂蚁集团AI创新研发部门NextEvo近日宣布，他们将全面开源AI Infra技术，以推动AI研发效率的提升。该技术框架名为DLRover，目标在于实现大规模分布式训练的智能化。

DLRover技术能够帮助大模型千卡训练实现高效运行，有效时间占比超过95%。这意味着在训练过程中，大部分时间都能够得到充分利用，而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”，该技术能够显著提高AI研发的效率。

为了进一步提高大模型训练的效率和稳定性，NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint（FCP）方案。在模型训练过程中，通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而，常规的Checkpoint做法存在一些缺点，如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。

针对这些问题，FCP方案进行了优化。通过应用FCP方案，在千卡千亿参数模型训练中，Checkpoint导致的训练浪费时间降低了约5倍。此外，持久化时间降低了约70倍，有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性，进一步推动了AI技术的发展。

蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流，这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果，为人工智能的发展做出更大的贡献。

打开APP阅读更多精彩内容