在掌握了上述的工具和视角后,我们将提出一些建议,帮助您在化学领域选择具有影响力的研究课题,并介绍机器学习问题的高层次结构。最后,我们将概述机器学习在化学研究中发展的三个主要方向:广度、深度和规模。
当我们的一位成员(阿斯普鲁-古兹克)在哈佛大学创办物质实验室(2006–2018),并于2018年转至多伦多大学时,一套选择重要问题的规则开始逐渐形成。在与乔治·怀特赛德的走廊对话中,怀特赛德告诉阿斯普鲁-古兹克他也有类似的指导方针,因此在开始任何研究之前需要明确的提出三个问题。我们在物质实验室每天都应用这些问题来选择研究课题。在这里,尽管我们专注于化学中的机器学习,但这些原则依然具有广泛的适用性。这三个问题依次强调了新颖性、重要性和可行性。
在开始一项科学事业之前,先问自己这个问题。如果这个问题以前没有被解决过,你的解决方案将会更具影响力和持久性吗。这是因为我们的目标是追求创新,而不是单纯争取排名。
在机器学习的背景下,尽管提升基准成绩能够提供有价值的进展信号,但这并不是研究的最终目标。尤其是在学术工作中,因为研究与利润并没有直接关联,所以应该尽可能的去追求新颖性。随之而来的是,一旦确立了新的问题,整个领域就会变得开发,从而就会有机会在此基础上进一步提升结果。
这项工作会在两个领域之间建立新的联系吗?当一篇论文提出的问题多于答案时,该研究领域就会得到发展。仅仅将机器学习方法应用于一个新的领域也可以被视为一种新颖的尝试。然而,如果所提议的方法能够提供一个新的视角,比如将搜索问题重新定义为生成模型的问题,那么这种新颖性将会达到最大化。
例如,我们将3D生成模型引入到旋转光谱学领域,这为仅依靠旋转光谱学进行3D结构解析的问题提供了新的思路。一个明显的例子是,在这一领域,我们首次研究的成果是优于其他任何研究的。但是,由于我们在该领域提出了首个方法,因此并没有可供比较或基准测试的机器学习基准。
在开始一项科学探索之前,请考虑一下它是否能够广泛帮助他人。毕竟,我们所从事的科学直接影响着人类生活。人类与整个生物群落每天都在与人造化学物质进行互动。请思考那些对地球重要的问题。因为在充满环境危机和政治危机的二十一世纪,这样的考虑显得尤为重要。
哪个受众会对此感兴趣呢?如果这个任务能够以显著更高的精度或速度解决,将会有哪些新的任务变得触手可及?例如,神经网络势之所以重要,是因为力场已经被广泛应用于了各种计算化学方法中了,而这些方法又用于预测物质的性质和光谱。因此,解决这个问题将吸引到科学界和工业界等广泛的受众。
可以对所提出的方法进行实验测试,以验证它是否能够解决计算问题吗?那些能够经过实验验证的方法通常具有更高的影响力。另一方面,如果所提出的方案“无效”,最糟糕的情况会是什么?如果新颖性选择得当,这种风险就会降低,因为能够解决未基准测试的问题的方法已经达到了最先进的水平。
处理一个既重要又在你资源范围内的问题是成功的关键。显然,最有效且具有广泛影响力的出版物将会产生更大的影响。因此,如果你希望你的工作被人铭记,就应该追求那些难度较大的工作,而不是简单易得的任务。
在机器学习的领域,考虑以下问题是非常有用的:可用的资源有哪些?是否有足够的数据以达到所需的泛化性能?是否有公开可用的代码实现?是否有类似的问题已经通过相同的方法得到了有效解决?例如,三维生成模型在构象搜索和对接等任务中的结构预测成功表明,它们在晶体结构预测方面也可能取得成功。
可行性的重要组成部分是控制范围。那么,能够解决这个问题的算法的最小实现是什么,同时又能产生广泛影响?在这个问题的范围内,如何评估成功?
机器学习和许多数据科学问题具有一种普遍存在的结构,这在许多论文中得到了体现。当你开始研究一个选定的问题时,接下来需要考虑的内容遵循以下层次结构:(1)数据,(2)问题框架,(3)方法,以及(4)评估。在我们的研究小组中,总是按照这个顺序和层次来考虑问题。例如,如果没有数据,科学家将无法取得进展。提出新方法但使用旧数据的论文发表,其影响力通常不及最初提供数据(及其机器学习应用)的论文发表。
在机器学习中,所有事情都源于可用的数据。没有数据,任何方法都无法应用。那么,可用数据的规模有多大?模拟新数据的难易程度如何?有哪些真实值数据可供使用,以及有哪些方法可以验证模型的预测?根据经验,当数据集超过大约10,000个样本时,生成模型更有可能有效地进行泛化。社区中反复解决的问题应当被考虑。是否可以定期记录这些数据?例如,在量子化学领域,计算力和构象搜索等任务是标准流程,这些数据的可用性为神经力场和3D结构预测的成功做出了贡献。此外,数据不仅仅是一个静态的数据集,还可能包括实时的数据采集,例如智能体的环境或用于黑箱优化的oracle函数。正因为数据是至关重要的资源,所以我们小组才开始了一个为期多年的目标,即开发和使用自动化实验室。因此我们就能够在数据上保证自给自足了。
接下来的关键任务是有效地构建问题框架。构建框架不仅重要于确保选择表1中的合适工具,还为基准测试和理论分析提供了基础。问题框架应基于领域知识:需要解决哪些具体挑战以支持下游任务,例如实验验证?例如,通过生成晶体结构作为3D单元格进行材料设计,可能难以转化为实际材料,因为实验人员无法对结构进行原子级的控制。问题框架本身往往能够决定所提议研究的新颖性和重要性:在化学问题与机器学习问题之间建立新的联系会产生新颖性,而性能的显著提升则能增强其重要性。
另一种处理问题框架的方法是询问数据如何表示。选择一种紧凑、信息丰富且计算效率高的表示方式,是融入归纳偏差并加速学习的有效途径。然而,正如“痛苦的教训”这部分所示,我们不必在设计“完美”表示上花费过多时间。如果输入表示包含了所有必要信息,并且数量足够大,深度学习能够自动找到理想的表示形式。
当问题明确后,模型的选择通常变得清晰且合理。哪些机器学习方法适合这个任务?简单的方法能否解决这个问题?已建立的方法,如Morgan指纹和XGBoost,仍然是属性预测的强基准,而遗传算法则是分子生成的强基准。如果简单的方法无法奏效,那么是否有新的算法适合这个问题?是否有现成的代码可以在线获取?在尝试理解代码之前,先运行代码可能会更简单。如何尽量少地修改用于解决其他问题的代码实现,以便解决当前的问题?选择与数据规模和可用性相匹配的算法。而对于小型数据集来说,经典机器学习仍然是表现最佳的。
这可能是本论文中最重要的段落:给研究生和博士后的黄金建议,切勿迷恋新方法论的诱惑。如果旧的方法论已经被证明有效,那就直接使用它!要专注于你工作的科学贡献。当其他方法确实存在局限性时,才应该开发新方法。换句话说,你的新型自编码器在长期内的影响力,远不如你解决一个重要的化学或材料科学问题所带来的深远影响,因为这样的答案能够持久存在。
最后,必须根据领域知识提供的合理指标来评估该方法。这些指标是否反映了提议的方法在实际应用中的真实情况?例如,如果您正在生成并提议新的分子,那么化学家是否能够合成这些分子并测试其性质?确定适当的指标是至关重要的,因为未来的工作很可能会采用相同的评估标准。
将机器学习应用于化学领域可以在应用广度、考虑深度和执行规模方面产生更大的影响。在应用广度上,许多化学问题可以被重新定义为机器学习问题,并引入到机器学习社区中。在考虑深度上,所提出的方法能够在机器学习与计算化学之间建立更强的理论联系,从而推动两个领域的进一步方法开发。最后,在执行规模上,针对更重要的问题,化学领域的机器学习可以利用更多的数据。随着人们对语言和视觉领域网络规模数据达到极限的担忧加剧,而化学领域却因其可以通过计算模拟或高通量实验“获取”更多的数据而脱颖而出。
在第2节中,我们观察到机器学习在化学问题上的多样性应用,但许多化学领域仍然未被充分探索。以下是一些机器学习仍在不断发展的化学领域,顺序不分先后:光化学、化学教育、核化学、农化学、分析化学、电化学、天体化学、非晶材料、软材料、开放量子系统、环境化学和大气化学,仅举几例。在每个领域中,都存在一些可以根据可用数据构建为机器学习问题的任务。这些任务不仅限于对纯小有机分子的理想状态进行研究。此外,异质材料、量子材料和复杂混合物等都带来了新的挑战,而这些挑战恰恰可以从机器学习的创新中受益。正如第2.5节所提到的,现实世界中的大多数物质都是复杂的混合物。
关键在于不要“强迫”机器学习进入这些领域,而是要考虑现有的或新颖的任务是否可以被视为机器学习问题(见表1)。这样做将有助于实现迭代改进,并可能催生新的算法。在某些情况下,可能没有足够的数据来应用机器学习,但确保新颖性的一种简单方法是关注一个尚未充分被探索的领域。
回到我们之前的例子,我们很高兴运用机器学习解决旋转光谱学中的一个重要结构确定问题:首次应用生成模型来预测给定替代坐标的分子的三维结构。这是一个典型的广度方法示例,旨在寻求多学科的方法,并让我们走出自己的舒适区。
正如我们在第3.2.2节讨论应用驱动的创新在机器学习(ML)中的作用时所看到的,化学问题激发了新算法的产生以及高级机器学习理论的发展。而深入参与机器学习理论或理论化学的研究能够带来新颖性和重要性,并且通常能够带来更加稳健的实证结果。
许多机器学习方法,例如图神经网络和等变架构,就是受到理论化学所启发的,并开始对这一领域产生影响。再者,扩散模型于2015年提出,灵感来源于统计力学中的方法,自那时起,它们已成为最先进的生成模型,使得高分辨率的文本到图像生成成为可能。近十年后,新研究将扩散模型与计算化学中的传统工具联系了起来。使得扩散模型能够同时学习粗粒度力场和生成模型,并且还可以作为采样和计算自由能的一种手段。这些研究的开展离不开对扩散模型与自由能之间关系的深入探讨,以及对扩散分布与理想气体之间联系的理解。
此外,从扩散模型衍生的流匹配方法放宽了将数据分布噪声化为纯高斯分布的限制,从而能够连接两种不同的数据分布。这使得轨迹学习成为可能,并且这一技术已经开始应用于反应的过渡路径采样。这些研究建立了理论上的联系,可能促使更多技术在计算化学与机器学习之间进行转移。
此外,神经网络势能将能量计算视为一个需要记忆的黑箱函数,而哈密顿预测则揭示了哈特里–福克理论(Hartree–Fock theory)的内部机制,使我们能够获取波函数,并在准确性与速度之间实现新的平衡。自洽训练则通过不再需要提供哈密顿矩阵作为标签来与这一理论相结合,从而整体上提高了密度泛函理论(DFT)的计算速度。
与实验人员合作,针对具体的设计目标进行研究,为我们提供了必要的深度。在真实世界的问题通常需要将机器学习与实验数据相结合,而这样的合作能够带来在单独研究状态下无法实现的突破。如量子化学、机器学习和有机材料化学领域的专家之间的大规模合作促成了新型有机发光二极管(OLEDs)的发现。在这项工作中,我们是首批证明基于指纹的机器学习方法、智能筛选方法和实验验证能够在在闭环理念下推动新材料开发的团队之一。
我们的团队最近参与了一项为期五年的国际合作,涉及六个研究小组。这项合作的成果是一个去局部化、非同步的闭环设计,从而产生了迄今为止最好的有机激光材料(据我们所知)。同时,另一项关于闭环设计的多学科合作也证明,机器学习能够通过深入的材料科学探索,为我们揭示新的化学原理。
如第3.2.3节所示,规模的非凡有效性为解决更复杂的问题带来了乐观的前景。如蛋白质结构预测等著名问题最终通过利用蛋白质数据库(Protein Data Bank)的规模得以攻克的。而快速且能达到量子力学上精度的原子动力学正在由基础力场实现。
对于那些已经在机器学习(ML)中形式化的化学问题,仅仅通过扩大数据和计算的规模,就能加速进展。像开放催化剂项目(Open Catalyst Project)这样的项目展示了机器学习在推动化学领域实现大规模进展方面的潜力。通过计算和模拟获取新数据,并设计更好的采样算法,我们可以提高数据生成的速度,从而朝着规模化目标努力。例如,大型语言模型智能体(LLM agents)可以执行计算模拟,以生成新的训练数据,从而进一步加快研究的进展。
虽然训练基础模型常被视为导致大量排放的原因,但我们也应关注计算能力在减少排放方面的潜力。更好的模型可能会减少所需的湿实验数量,或有助于设计更环保的替代方案来应对当前和未来的化学过程。值得一提的是,化学工业在全球排放中占据了相当大的比例。
化学空间的规模可能相对较小。常被引用的化学空间估计大小为10^60^,这让人感到着迷。然而,从机器学习的角度来看,这个空间可以被认为是小的。如果我们仅考虑黑白28 × 28的图像,也就是标准手写数字数据库MNIST的数据,这个空间的大小已经是2^(28×28)^ ≈ 10^236^。当然,图像的空间要稀疏得多,因为现存的彩色图像数量约为14.3万亿(≈ 10^13^张)。这正是深度学习令人印象深刻之处——它能够仅通过展示一堆示例,就能在极高维的空间中找到结构。在语言的背景下,10^60^仅仅是限制在60个词汇内的10个单词句子的数量,或者是限制在60个可能句子的10个句子段落的数量。显然,自然语言的规模要大得多。
这些强大的能力能否将理论思考变为现实?想象一下,能够在宏观时间尺度上对一个细胞进行原子级模拟,或者准确地模拟柔性有机电子设备在长年使用过程中的有效性和稳定性,抑或是从头开始发现新的反应。这些挑战直到最近似乎都遥不可及。而令我们感到惊讶的是,利用神经力场进行全原子HIV蛋壳的纳秒模拟在DFT精度下却是可行的。如果现代图像生成模型能够生成1024 × 1024分辨率及更高质量的图像,那么究竟是什么阻碍了在生物时间尺度上模拟整个细胞的进程?如果障碍是数据,我们很幸运能够获得越来越多复杂的模拟以及能够独立生成高质量数据的自动化实验室。如果障碍是计算能力,我们也有幸借助主流人工智能带来的计算能力大幅提升。如果问题出在方法或实验上,那么作为21世纪的跨学科理论化学家,我们需要共同行动:让我们一起推动学科的变革吧。
全部0条评论
快来发表一下你的评论吧 !