5月5日,达摩院发布并开源新型联邦学习框架FederatedScope,该框架支持大规模、高效率的联邦学习异步训练,能兼容不同设备运行环境,且提供丰富功能模块,大幅降低了隐私保护计算技术开发与部署难度。
过去几年,机器学习的迅猛发展是人工智能领域最引人注目的大事件,大数据则是隐藏在这波浪潮后面的重要功臣。过往的经验告诉我们,如果要让技术获得令人满意的成果,对数据的理解和应用都非常关键。
但现实并不总能很好满足研究人员对数据的质量要求。更多时候,科学家们可以使用的都是数据孤岛中的“小数据”——它们或者规模较小、或者缺少部分重要的特征。数据所有权意识上升带来的数据隐私需求增强后,上述问题的重要性进一步凸显出来。怎样在保护隐私的同时推动人工智能发展,已经成为这个时代最重要的技术挑战之一。
Gartner报告显示,到2025年之前,约60%的大型企业预计将应用至少一种隐私保护计算技术。达摩院2022十大科技趋势同样将隐私保护计算列为重要趋势,认为该技术将从覆盖少量数据场景走向全域保护,从而激发数字时代的新生产力。
科学家必须想办法使用那些不那么完美的数据,联邦学习理念应运而生。科学家曾经用一个形象的比喻来描述联邦学习的思想——养羊就像机器学习,草料就像各类数据,没有草料的持续供应,就没有羊群的不断壮大。以前,科学家选择在全球收割草料并集中起来提供给羊群;现在,他们选择赶着羊群进入一块又一块草场。
然而,随着应用隐私保护计算的场景和行业日趋多元,涉及的数据类型日趋丰富,已有联邦学习框架难以灵活高效地满足越来越复杂的计算需求,“可用”到“好用”之间的技术挑战困扰着各方。
为解决上述挑战,达摩院智能计算实验室研发了新型联邦学习框架FederatedScope,该框架使用事件驱动的编程范式来构建联邦学习,即将联邦学习看成是参与方之间收发消息的过程,通过定义消息类型以及处理消息的行为来描述联邦学习过程。通过这一方式,FederatedScope实现了支持在丰富应用场景中进行大规模、高效率的联邦学习异步训练。
同时,达摩院团队对FederatedScope训练模块进行抽象,使其不依赖特定的深度学习后端,能兼容PyTorch、Tensorflow等不同设备运行环境,大幅降低了联邦学习在科研与实际应用中的开发难度和成本。
为进一步适应不同应用场景,FederatedScope还集成了多种功能模块,包括自动调参、隐私保护、性能监控、端模型个性化等。FederatedScope支持开发者通过配置文件便捷地调用集成模块,方便快速入门;也允许通过注册的方式添加新的算法实现并调用,支持定制化及深度开发。
达摩院智能计算实验室隐私保护计算团队负责人丁博麟表示,“数据已成为重要的生产要素,而隐私保护计算是保障这一要素发挥作用的关键技术。通过开源最新联邦学习框架,我们希望促进隐私保护计算在研究和生产中的广泛应用,让医药研发、政务互通、人机交互等数据密集领域更安全、更顺畅地发展。”
全部0条评论
快来发表一下你的评论吧 !