微软宣布AI4Science计划并建立一支新的团队

lhl545545 2022-09-29 1997

人工智能

636人已加入

描述

人工智能已经成为许多科学家生活中不可或缺的工具，因此，研究人员使用人工智能，现在有了自己的绰号——AI4Science，被会议和实验室使用。近日，微软宣布了自己的AI4Science计划，雇佣了分布在几个国家的数十名员工。其主管Chris Bishop在转向人工智能之前就开始了科学方面的工作。他在爱丁堡大学（University of Edinburgh）获得量子场论博士学位，然后在20世纪80年代专注于机器学习之前从事核聚变研究。而后，他开始将神经网络应用到自己的工作中。“我早了25年，”他说，“但它真的已经起飞了。”他于1997年加入微软研究部剑桥实验室，最终成为该实验室的主任，现在有了一个新角色。

IEEE Spectrum：什么是微软AI4Science？

Chris Bishop：他们正在建立一支新的团队。在未来十年里，我们看到了一个非常令人兴奋的机会，专注于在机器学习与自然科学的交叉点——化学、物理、生物学、天文学等等。它不仅仅是机器学习在自然科学中的应用。

如何超越这一点？

Chris Bishop：微软的一位技术人员Jim Gray谈到了四种科学发现范式。第一种范式是纯经验的。它在观察我们周围世界的规律。

第二种范式是理论。想想牛顿运动定律或麦克斯韦方程。这些是典型的微分方程。这是一个归纳的步骤，一个假设，他们描述的世界更普遍。一个方程在许多长度和时间尺度上都非常精确，你可以把它写在你的T恤上。

随着数字计算机和模拟技术的发展，科学发现的第三次转变开始于20世纪中期，有效地解决了这些用于天气预报和其他应用的微分方程。

第四种范式是在21世纪兴起的，它不是关于使用计算机从第一原理解方程。这相当于使用计算机在规模上分析经验数据。机器学习在这个领域蓬勃发展。想想大型强子对撞机、詹姆斯·韦伯太空望远镜或蛋白质结合实验。

这四种范式都是协同工作的。

我们看到一种新的范式正在出现。它的起源可以追溯到几十年前，但它是在自然科学中使用机器学习的另一种方式。在第三种范式中，你在超级计算机上运行一个复杂的模拟；第二天，有人问了一个不同的问题，就要投入更多来进行解答。我们现在可以使用这些模拟输入和输出作为机器学习深度神经网络的训练数据，学习复制或模拟模拟器。如果多次使用仿真器，这将分摊生成培训数据的成本和培训成本。现在你有了这个很有希望的通用模拟器，你可以比模拟快几个数量级。

训练仿真器大约需要多少仿真数据？

Bishop：很多机器学习都是经验科学。它包括尝试不同的体系结构和数据量，并了解事物的规模。你不能提前说，我需要5600万个数据点来完成这项特定任务。

然而，有趣的是，机器学习中的技术比常规培训更智能一些。像主动学习和强化学习这样的技术，系统对其局限性有一定的了解。在不确定性较大的地方，它可能需要更多的数据。

仿真的弱点是什么？

Bishop：它们在计算上仍然非常昂贵。此外，模拟器从数据中学习，因此它们通常不会比用于训练它们的数据更准确。此外，当呈现的场景与他们接受培训的场景明显不同时，他们可能给出的结果不够准确。

微软AI4Science的所有项目都是基于仿真的吗？

Bishop：没有。我们在药物研发方面做了很多工作。目前，这完全基于第四种范式。它是基于对某些分子性质的经验观察，并使用机器学习来推断不属于训练集的分子的性质，然后反过来说，给定一组性质，我们能找到具有这些性质的新分子吗？我们与Novartis有五年的研究合作关系。

除此之外，你还从事哪些其他项目的研究？

Bishop：我们正在积极寻找合作伙伴关系。微软在机器学习方面有很多专业知识。我们在超大规模计算和云计算方面也有很多专业知识。然而，我们不想做的是成为领域专家。我们不想成为一家制药公司，也不想成为催化领域的专家。我们正在引进在量子化学、量子物理、催化等方面具有专业知识的人，但实际上是为了让我们与合作者和合作伙伴建立接口。

更重要的是，我们在任何有微分方程的地方工作。它可以是流体流动，设计涡轮机，预测天气，大规模天文现象，核反应堆中的等离子体。我们的重点是分子尺度的模拟。在科学上，它有一些最具挑战性和最有趣的问题，但其适用性也是巨大的药物发现和可持续性。我们一直在考虑直接捕集空气中的二氧化碳。

目标是发表论文还是建立知识产权和产品？

Bishop：我想我们有三个目标。首先也是最重要的是关于加强我们的研究。同行评审出版物将是一个关键渠道。

第二，微软是一家通过其商业模式来助力他人成功的公司。因此，我们将要研究的一件事是，我们如何将一些研究进展转化为基于云的服务，然后可以用于商业或学术界。这种方法的适用范围可能是巨大的。如果你只考虑分子模拟，它可以是药物，是润滑剂，是保护腐蚀，是碳捕获，也是化学工业的催化剂，等等。

最后，第三个目标是看到对于现实世界的影响：卫生保健、可持续性、和气候变化。

你是否预见到不仅在你帮助合作伙伴的领域，而且在纯粹的计算机科学和机器学习方面都有进步？

Bishop：这是一个很好的问题。我相信“启发性的基础研究”的使用是有意义的。人们用一个非常线性的模型来思考，在这个模型中，一端是基础研究，另一端是应用研究。爱因斯坦就是一个很好的例子。他用铅笔、纸和大脑发现了受激发射，后来它被用来制造激光器。

我希望在我们处理真正困难的问题时看到这一点。我们正试图构建一个能够理解分子动力学的神经网络，我们将需要新的神经网络架构。这可能会蔓延到完全不同的领域。　　

审核编辑：彭静

打开APP阅读更多精彩内容