如何在化学和材料科学领域开展有影响力的人工智能研究?(二)

描述

第二部分编译后的内容:

3. 问题遇见方法:从机器学习的视角去解决化学问题的方法

在将机器学习的具体内容应用于实践中的过程中,有大量可供参考的资源,包括大量的书籍、评论和互联网资源等。本节将从机器学习研究人员和社区的高层视角出发,探讨他们如何看待和解决问题。首先,我们将重新分类前文提到的各种化学问题,将其作为已确认的机器学习问题实例。然后,再通过梳理机器学习社区共同关注的主题和实践,来探讨其在化学应用中的具体体现,并重点关注基准测试、领域知识的作用以及社区价值观相关的因素。

3.1 机器学习工具箱

机器学习为利用数据解决问题提供了一套算法和理论工具。机器学习已经界定了一组明确的问题框架,用于处理语言、视觉、音频、视频、表格数据、科学数据等多个领域的多样化任务。每个问题都设定了一组输入要求和期望的目标,这有助于在一个共同框架下对不同算法进行经验基准测试和理论分析。在表1中,我们列出了一些重要的机器学习问题及其预期的输入和目标,并将不同的化学问题重新归类为这些机器学习问题的实例。

机器学习问题输入目标化学问题算法
回归和分类成对的数据{()}预测属性预测
神经网络势
产率预测
快速预测的代理模型
光谱预测
图像分割
3D结构预测
经典机器学习:线性回归
随机森林
支持向量机
梯度提升机
高斯过程
神经网络
图神经网络
等变神经网络
transformers
生成模型数据集绘制样本  或构象搜索
分子对接
晶体结构预测
过渡态搜索
结构鉴定
正向合成预测
分子设计
变分自编码器
生成对抗网络
归一化流
自回归模型
去噪扩散和流匹配
 
采样能量 绘制样本平衡采样
过渡态路径采样
分子设计
马尔可夫链蒙特卡洛
序贯蒙特卡洛
GFlow网络(生成流网络)
基于梯度的优化损失函数 优化参数 神经网络波函数
物理信息神经网络
可微分模拟
分子设计
一阶:(随机)梯度下降
Adam 优化
二阶:k-FAC
黑箱优化预言机函数 最优解 反应和过程优化
分子设计
贝叶斯优化
赌博机优化
强化学习
遗传算法
智能体环境的:
状态集合{}
动作集合{}
状态转移
奖励函数 
从最优策略中抽取动作:提取文献数据
执行模拟
回答问题
合成规划
大预言模型提示词框架
强化学习

回归和分类的目标是根据输入 x 预测标签 y,前提是有一组配对数据。标签可以是一维的,例如在预测属性、能量或产量时,也可以是高维的,例如与力场、光谱预测和分割相关的机器学习回归问题。当数据集较小且为表格形式时,梯度提升机(如 XGBoost)通常表现良好。高斯过程同样适用于小规模数据,并能为贝叶斯优化提供良好的不确定性。然而,深度神经网络则是处理高维复杂数据(如图像、文本和分子)的首选算法。神经网络架构的选择受到具体问题约束的影响:对于二维图使用图神经网络,而对于三维数据则采用等变架构。最近,Transformer 的出现彻底改变了语言、图像、图形和 3D 分子的建模方式。

生成模型的目的是从由数据集 {x} 定义的分布 p(x) 中抽取样本 x。无条件生成建模旨在匹配数据分布,而条件生成建模则接受一个标签或提示 y,并试图学习条件分布 p(x|y),这在一定程度上模糊了无监督学习与有监督学习之间的界限。尽管无条件生成建模在化学领域的应用价值较低,但条件生成建模非常适合解决逆问题或一对多问题。例如,构象搜索(一个二维结构对应多个三维构象)、结构解析(一个信号可能与多种分子一致)以及前向合成预测(给定反应物,可能产生多种产品)都属于这种情况。生成模型天生适合于提供多个高质量答案的能力,而回归方法则会对所有可能的答案进行平均,这样得到的结果可能并不代表一个高质量的答案。例如,AlphaFold2使用回归方法根据一个序列预测出一个三维结构,而AlphaFold3则利用扩散模型为相同输入结构预测多个生物分子组装。目前存在许多类型的生成模型,如变分自编码器、生成对抗网络和归一化流,但目前主导作用的是用于语言处理的自回归模型,以及用于图像等感知数据的扩散/流匹配模型。在化学领域,这转化为 SMILES 的化学语言模型和三维分子结构的扩散模型。而这两种方法都依赖于通过神经网络(通常是变压器)进行逐步生成和迭代预测。由于无条件生成模型学习重现数据分布,这些数据往往是大量丰富且未标记的数据,因此训练生成模型也可以被视为将这些数据压缩到网络权重中,从而赋予一种理解概念。随后,就可以基于这种理解来构建诸如采样和智能体行为等任务了。

采样的目标也是从某个分布中抽取样本,但它与生成模型不同,因为采样只能通过一个能量函数 ( E(x) ) 来访问,该函数定义了一个未归一化的概率密度。由于没有提供数据集,因此无法简单地训练生成模型。此外,要生成一个数据集,首先需要进行样本抽取。而且,能量函数的计算通常成本很高。因此,采样问题在机器学习和计算化学中被认为是最具挑战性的问题之一。文献中存在许多采样算法,其中大多都源自于统计力学,如马尔可夫链蒙特卡洛(MCMC)和朗之万动力学。这些传统方法开始将现代机器学习的理念融入其中,例如从扩散模型中获取灵感用于MCMC,或将可学习组件纳入序惯蒙特卡罗方法。有些方法则学习偏置势以进行过渡态路径采样,而其他方法则将扩散模型转化为可解决组合优化问题的采样器。因此采样方法对于解决平衡取样问题至关重要,因为其对于预测许多化学过程的热力学和动力学是必不可少的。而生成模型可以作为采样算法的组件,例如在Boltzmann生成器中,通过能量和示例进行训练。此外,Boltzmann生成模型开始利用生成模型在不同样本之间进行迁移学习。而生成流网络(GFlowNets)是通过学习在生成图中如何分配流量来解决采样问题的,其在生成多样化的离散数据方面具有独特的优势。事实上,越来越多的文献将GFlowNets应用到了分子和材料设计问题中来了。

基于梯度的优化算法旨在优化与参数相关的平滑损失函数,该函数用于训练神经网络,以解决几乎所有其他机器学习问题。为此,机器学习领域发展了一系列优化算法,如随机梯度下降、Adam以及利用二阶导数信息的K-FAC等二阶优化方法。诸如PyTorch、JAX和Tensorflow等机器学习框架已经实现了自动微分和GPU加速,使得优化神经网络变得更加容易。而神经网络能够被如此出色地优化这一事实,激发了将其作为求解波函数的试探方法,以满足薛定谔方程的需求。这种方法本身是物理信息神经网络(PINN)的一个应用实例,它通过将偏微分方程(PDE)本身作为损失函数,来寻找这些方程的神经网络的解。此外自动微分还允许在模拟过程中传递导数,这能够使网络学习到成对交互的势能,为过渡态路径采样学习偏置势,并执行逆向设计。

黑箱优化方法尝试以无导数的方式,尽可能少地调用预言机函数 ( f(x) ) 来优化它。在许多实验问题中都是这种情况,例如优化反应参数以提高产率、优化设备处理参数以提高性能,或优化液体处理参数。为了以高样本效率解决这些问题,会应用如贝叶斯优化和赌博机优化等算法。当样本效率不是问题时,也可以应用诸如强化学习和遗传算法等元启发式优化算法。黑箱优化也可以被视为采样的一个实例,其中目标分布集中在全局最优解周围。

智能体在环境中解决复杂的多步骤问题。环境定义了可能的状态 、动作 、状态之间的转换以及奖励函数 。例如,逆合成规划中,分子作为状态,化学反应作为动作,产率和成本作为奖励函数。像逆合成规划或机器人运动规划这样的规划问题自然可以通过智能体的行为来解决,而学习最优智能体行为的标准算法被称为强化学习。但是,由于强化学习在样本效率上表现不佳,常见的方法是使用生成模型来初始化智能体:例如,像ChatGPT这样的有用的助手被初始化为在大规模互联网文本上预训练的大型语言模型,然后通过微调来最大化满足人类偏好的奖励。此外,提示框架作为一套迅速发展的方法,可用于增强这些智能体的能力,使它们能够逐步推理、使用工具、检索信息、执行代码,并不断重复这些步骤。

3.1.1 工具箱的优势

共享问题接口可以对许多不同算法进行广泛且清晰的基准测试。例如,Song等人在其文章中提供了一个例子,在表1中,他们提出了一种新的生成模型类,并将其方法与27种不同类别的生成模型在相同数据集和基准上进行了广泛比较。

每个机器学习问题都有其自身的理论基础。数学理论可以分析算法在收敛时的性质或证明其收敛过程,解释为何某些方法比其他方法更为有效。而共享的问题接口也有助于分析,可以用来确定一种方法是否与另一种方法相同,或者哪些方法比其他方法更具普适性,从而有助于统一多样性的文献研究。

3.1.2 工具可以相互叠加使用

机器学习问题常常相互交织在一起。例如,生成模型,如扩散模型,会利用经过训练的神经网络进行回归去噪处理。智能体是建立在生成文本模型之上的,而生成模型本身的核心是一个用于预测下一个标记的神经网络。这意味着在机器学习中,不同的技术和模型往往可以相互构建和扩展,形成更为复杂和强大的系统。这些网络都是通过像 Adam 这样的随机优化方法进行训练的,而黑箱优化则用于选择网络的超参数。此外,采样算法、黑箱优化和智能体也可以结合之前数据训练的生成模型,用来提高数据生成的质量 。

表1中列举的问题并非详尽无遗。其他问题包括不确定性量化,这在贝叶斯优化和主动学习中很有帮助,还有在保护隐私的同时合并工业制药数据的联邦学习,以及用于普遍适用的分子描述符的表示学习,因果学习,检索和压缩等问题。

3.1.3 选择适当的工具来完成任务

尽管机器学习工具功能强大,但只有在正确的任务上使用时才能发挥最大作用。例如,如前所述,生成模型更适合处理一对多问题,例如3D结构预测。基于梯度的优化适用于损失函数可微分且能够快速评估的情况,比如优化神经网络,但并不一定适用于优化分子结构。尽管分子设计常被视为一个黑箱优化问题,但可以认为,采样更适合用于分子设计:即通过寻找多样且高质量的结果来解决多目标问题。相比之下,黑盒优化通常只专注于当前见过的最优解。因此,分子设计不能仅仅依靠生成模型,因为生成模型学习的是给定数据集的分布。而分子设计则需要在已知数据分布之外寻找卓越的候选分子。

在化学领域,通常将问题视为一种搜索,就像在稻草堆中寻找一根针一样。像传统的对接方法会搜索所有可行的配体位置,而晶体结构预测则会全面的搜索所有可能的原子排列。而基于虚拟筛选的分子设计会假设在庞大的虚拟库中会找到足够优秀的“针”。当可用计算资源足够时,基于搜索的视角非常有用,因为这可以全面建模一个空间,以证明不存在良好的解决方案。然而,对于许多应用来说,全面的搜索可能过于繁琐。想象一下,这就好比试图在所有可能的英语文本中进行搜索来写一篇论文。这个时候一个有帮助的思考是,是否可以利用现有数据和算法将搜索问题重新框定为生成模型或采样问题。

3.2 机器学习社区的主题与实践

解决化学问题可以通过高级视角和社区实践来辅助。为了将机器学习的观点放在算法开发的背景下进行说明,我们描述了ML社区中的共同主题和实践,比如基准测试、高度跨学科性,以及深度学习的痛苦教训。所有这些都将在下文展开。

3.2.1 基准测试的作用

基准测试在机器学习的发展过程中发挥着至关重要的作用,它推动着模型和方法的持续改进。在机器学习社区非常重视能够提升现有技术水平的方法。因此每年至少有三大计算机科学会议(NeurIPS、ICML 和 ICLR),使得渐进式的进展时常出现。这些对现有基准的细微迭代改进,随着时间的推移,从而获得的显著性能提升。对于研究人员而言,基准测试提供了明确的评估标准,以帮助他们识别模型中哪些组成部分对性能影响最大,进而可以实现更有针对性和更具影响力的发展。

机器学习研究的一个显著特点是使用排行榜,提出的方法根据其在既定基准测试中的表现进行排名。为了能在主要会议上被接收,论文必须在技术上有所进步或与当前最先进的水平相比具有竞争力。因此这一评价机制推动了各个领域的显著进展,从图像分类到机器翻译,再到图像生成,甚至解决奥林匹克数学问题。如Open Catalyst Project正是利用这一机制为神经网络势设定了一个基准,用来弛豫金属表面上的有机吸附物。此外,该项目还提供了一个比以往更大的数据集,激励了更强大的等变架构的持续发展。从2020年到2023年,预测吸附能的成功率从1%提升至14%,所以目前的模型在预测吸附方面已开始变得实用起来了。而另一个名为Matbench Discovery的基准则是在工业界引发了神经力场的军备竞赛。

然而,尽管基准测试是一种强大的工具,但在化学领域的应用中,我们必须持批判态度。因为,虽然领域专家在定义能够转化为实验室实际结果的有效基准方面具有独特优势。但在机器学习文献中,问题的设置虽然针对计算性能进行了优化,却仍可能与实验验证的实际情况不符。这种不一致可能导致关注点从解决实际问题转移到单纯推动机器学习技术的发展上。随着方法的成熟和基准的饱和,新的、更相关的基准亟需出现。

为机器学习研究人员定义和框定问题是一项至关重要的任务。这需要以一种更广泛的机器学习社区易于理解的方式来提出重要的问题和行动呼吁。通过这种方式,化学家能够引导机器学习工具的发展,使其在实验研究中更有实际应用的可能性。尽管创建数据集和基准可能被视为机械性的工作,但它可以通过利用机器学习社区的共同努力来推动解决困难问题的进展。假设一个化学问题能够被清晰地提炼并转化为一个适当基准化的机器学习问题。那么,化学家们可以思考:如果这些旧任务能够以显著更快或更高的准确性来解决,那么现在又有哪些新问题变得可以解决呢?如此一来,在化学与材料这一广阔而激动人心的领域中,还有许多科学问题等待探索。

3.2.2 跨学科:化学对机器学习的影响

虽然在计算机科学领域,基准测试的迭代改进是方法驱动的机器学习的重要组成部分,但另一种创新方法则充分利用了机器学习社区的高度跨学科特性。众所周知,机器学习已被广泛应用于健康、农业、气候、保护、物理和天文学等多个领域。因此我们最近提出了“应用驱动的机器学习[1]”作为一种新兴范式,该范式根据不同领域中的实际任务来评估成功,方法和评估同时也受到领域知识的启发与背景的影响。应用驱动的创新承认了这些来自多样领域的任务融入机器学习发展所带来的影响。因此这些新任务激励着新的算法的产生。

在化学领域,图神经网络的发展源于对分子图建模的需求。这一需求推动了对社交网络、引用网络、计算机程序和数据库等其他图数据建模的实际进展。反过来,图机器学习也取得了理论上的进展,特别是在通过Weisfeiler–Lehman测试分析图神经网络的表达能力方面。此外,神经网络需要遵循三维空间的旋转对称性,这进一步促成了等变架构的发展。所有这些在尊重对称性方面的方法论发展被统一到几何深度学习的理论中去了,该理论展示了卷积神经网络、图神经网络与Transformer之间的紧密联系。

除了理论和方法,机器学习研究者们对机器学习在解决全球健康和气候变化等现实问题方面的潜力感到兴奋。这种兴奋表现为强烈的学习热情,这体现在了博客文章、教学材料以及包含录制讲座的在线阅读小组社区的蓬勃发展上。许多关注机器学习在化学领域应用的研讨会在主要的机器学习会议上举行,如神经信息处理系统大会(NeurIPS)、国际机器学习大会(ICML)和国际学习表征会议(ICLR)。这些资源的广泛可用性也反映了机器学习社区对开放性的重视。会议论文可以被免费发布,预印本受到重视,并且共享代码被视为理所当然。甚至还有专门接受博客文章的会议类别

在与机器学习(ML,Machine Learning)研究人员交流时,要对他们最初的假设保持耐心。通常,在机器学习文献中会提出多个假设,但这些假设在实际实验中往往并不适用。例如,在分子设计中,常常忽略了分子的可合成性,或者在反应预测中忽略了反应条件。这反映了不同领域审稿人的价值观和假设差异。我们很容易对这些问题做出评判,并认为这些方法幼稚,这样的批评也是有益的。但我们不应因此而全盘否定所有努力:我们应该问,如果能够妥善处理这些额外的假设,这种方法是否能帮助解决我们的具体问题?由于机器学习从业者来自不同背景,他们可能不会立即理解化学领域的行话、假设和实验设置,但他们是渴望学习的。

3.2.3 惨痛的教训:平衡可扩展性与领域知识

AlexNet的问世标志着深度学习革命的开始,展示了神经网络在利用图形处理单元(GPU)的计算能力进行训练时,如何在图像分类方面的准确性上远超基于手工设计特征的模型。通过观察神经扩展法则,我们明确看到了计算规模的力量,这些法则经验性地且可靠地预测了随着计算能力、数据量和参数数量的增加,模型性能将如何改善。这些扩展法则激励了GPT系列语言模型的发展,最终催生了诸如ChatGPT这样的先进应用。

根据规模法则,在设计算法时,我们应谨慎运用领域知识。机器学习中的“惨痛的教训”提醒我们不要过于依赖领域知识来设计算法。虽然手工制作的领域特定设计选择可能在短期内带来改进,但那些更好地利用计算规模的方法往往在长期内表现得更为出色。在文本、图像、语音、国际象棋和围棋等多个领域,依赖人类直觉和归纳偏差的方法已经被可以充分利用摩尔定律所带来的计算能力指数增长的“穷举方法”所取代。

作为化学家,令人感到愉快的是开发受到我们化学知识启发的方法,例如通过将量子化学描述符注入回归分析,或对系统施加物理约束。然而,我们必须提醒自己,人类对问题的理解并不直接意味着我们能够设计出解决该问题的算法。尽管在机器学习研究中对语言学有着广泛的知识,但像ChatGPT这样的模型也是直到研究人员在大规模数据集上进行训练后才得以实现。

规模的力量可能让人感到恐惧。即便是像在神经网络中强制执行等变性这样受到广泛关注的假设,最近的研究也对此提出了挑战:诸如概率对称化和随机帧平均等方法显示,施加结构约束并不是绝对必要的。而像AlphaFold和分子构象场这样的模型则证明,使用随机旋转的训练样本进行训练的模型能够自动学习旋转等变性,但这需要更高的计算量和更长的训练时间。

在当前阶段,规模和数据仍然有限。例如,带有反应规则的专家系统依然是当今合成规划中最有效的方法,这可能是由于收集反应数据的困难所导致的。此外,我们可以进一步减少归纳偏差,训练语言模型直接生成3D分子结构的.xyz文件,正如我们最近所做的那样,与更为定制化的晶体结构预测方法相比,其效果也相当不错。然而,正如Alampara等人所说,目前的语言模型无法编码表示特定材料属性所需的几何信息。

因此,这个惨痛的教训并不意味着对算法施加归纳偏置永远是错误的。我们必须在利用计算能力和领域专业知识之间找到一个最佳平衡。这一点在化学领域尤为重要:与语言和图像等可以在互联网规模上获取的数据不同,化学数据相对稀缺,并且需要通过真实世界的实验来获得。因此,设计能够最有效利用这些有限数据的算法至关重要。手工设计的算法可以在短期内实现更好的预测和更快的仿真,从而推动数据生成,最终达到基础模型所需的数据规模。

领域知识的另一个关键作用是确定问题的合适概念。我们应该是从基本原理出发进行建模,比如基于物理的模拟,还是将其视为一个化学信息学问题呢?这个问题在更广泛的背景中如何体现的呢?例如,预测药物对患者的影响可以通过模拟整个个体来实现,尽管目前这在实践中并不可行,或者也可以通过统计建模或因果建模的方法来处理。在某个时刻,这些不同层次的模型需要进行协调,而领域科学家在描绘这一结构层级模型中是至关重要的。他们帮助判断何时假设是合理的,何时又不合理。虽然机器学习工具无法独立解决这些问题,但它们可以在整合不同模型组件方面提供显著帮助。

参考文献‍‍‍‍‍[1] 

R. David, A. Aspuru-Guzik, B. Sara, D. Bistra, D. L. Priya, G. Marzyeh, K. Hannah, M. Claire, R. Esther, T. Milind and W. Adam, Position: Application-Driven Innovation in Machine Learning, Proceedings of the 41st International Conference on Machine Learning, ed. R. Salakhutdinov, Z.Kolter, K. Heller, A. Weller, N. Oliver, J. Scarlett and F. Berkenkamp, PMLR,2024, vol. 235, pp. 42707–42718[: https://proceedings.mlr.press/v235/rolnick24a.html

 

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分