看人工智能如何助力材料研究

PCB88475579 2020-04-15 3722

电子说

1.3w人已加入

描述

1. 孙宽、陆仕荣、肖泽云Sci. Adv.：机器学习辅助的高性能有机光伏材料分子设计和效率预测

机器学习

有机光伏（OPV）电池提供一个直接的和经济的方式来将太阳能转化为电能。近年来，OPV的研究迅速发展，功率转换效率（PCE）已超过17％。迄今为止，OPV研究的主流一直集中在建立新的OPV分子结构与其光伏性质之间的关系。该过程通常涉及光伏材料的设计和合成，材料的光电性能表征以及光伏电池的组装和优化。

这些传统方法通常需要精细控制化学合成、制造精密装置、费力的纯化和繁琐的实验步骤，这导致大量的资源投入以及较长的研究周期。因此，OPV的开发效率低下且缓慢，例如，自1973年首次报告以来，仅在光伏电池中合成并测试了不到2000个OPV供体分子。

重庆大学的孙宽教授、中科院的陆仕荣教授和肖泽云教授共同建立了一个数据库，其中包含从文献中收集的1719个经过实验测试的OPV供体材料。他们首先研究了分子的表达对ML性能的重要性。为了确定最合适的表达式，我们测试了不同类型的表达式，包括图像、ASCII字符串、两种类型的描述符和七种类型的分子指纹。根据PCE值，描述符可将材料分为“低”和“高性能”。指纹具有最佳性能（预测PCE类的准确度为81.76％），并且其长度对预测的准确性有显着影响。

此外，作者使用了多种ML算法进行分类。研究发现，当处理小型数据库时，RF模型的性能优于其他模型。最后，作者通过合成10种新的OPV供体材料独立验证了ML模型。该模型的预测与实验结果吻合良好。

通过这项工作，作者为OPV研究建立了一种新方法，即通过ML模型预筛选设计的OPV分子，然后仅关注在后续实验中通过ML虚拟评估的分子。这种方法将大大加快开发用于OPV应用的新型高效有机半导体材料的探索过程。

文献链接：

Machine learning–assisted molecular design and efficiency prediction for high-performance organic photovoltaic materials （Sci. Adv.， 2019， DOI： 10.1126/sciadv.aay4275）

2. Nat. Commun.：从大量沸石材料合成记录中将合成和结构相联系

机器学习

在计算能力的提高、算法开发的进步以及海量数据的可用性的推动下，机器学习的应用已扩展到解决人类层面的问题，包括材料科学领域的问题。应用于机器学习的材料科学中的数据集大量来自理论计算。一旦经过培训，机器学习就可以应用于成千上万甚至数百万候选材料的高通量筛选。这些详尽的计算机模拟数据挖掘方法能够从大型的，通过计算生成的数据库中识别出非凡的材料。

材料的合成也可以从机器学习中受益。例如，从大量实验数据中构建了一系列监督分类模型，以使用一组综合描述符来预测综合结果。这种基于机器学习的实验数据库方法能够从化学空间中提取最重要的合成描述符，这些化学描述符具有高维和大量条目，有时人类很难处理。机器学习的模式识别能力被认为对于通过动力学控制的途径合成的材料非常有效，而这些途径很难用简单的方法论来处理。

这项研究使用机器学习技术分析了从文献中收集的沸石的合成记录，以合理化对其性质和结构的理解。从机器学习模型中提取的综合描述符用于识别具有适当重要性的结构描述符。基于结构描述符的晶体结构相似性网络，显示了由合成相似材料组成的群落的形成。基于先前被忽略的结构相似性的交叉实验，揭示了沸石的合成相似性，证实了合成结构之间的关系。该方法适用于使经验知识合理化、填充合成记录并发现新颖材料的系统。

文献链接：

Linking synthesis and structure descriptors from a large collection of synthetic records of zeolite materials （Nat. Commun.， 2019， DOI： 10.1038/s41467-019-12394-0）

3. npj Computational Materials：半监控机器学习在材料合成过程中的应用

机器学习

在过去的30年中，计算材料学的进步已在材料设计方面取得了巨大的成功，其中包括数十种通过计算设计的新颖化合物以及从头开始预测的特性的按需可用性。但是，材料发现流程仍然受到实验合成挑战的限制，在合成新化合物之前，这可能需要数月的反复试验。

目前，很难设计如何在实验室中合成预测的材料。当前理解和预测材料合成的方法涉及原位X射线衍射（XRD）研究、从头算热力学建模、经典热力学观点以及机器学习指导的合成参数搜索。

最近，机器学习方法在有机化学中逆向合成的应用被证明是有效的，激发了类似方法在预测无机材料合成中的应用。这些有机化学合成反应的机器学习研究已经通过有机化学反应数据库（例如Reaxys）实现，该数据库包括》 1200万个单步反应。当前没有类似的数据库全面地分类无机材料合成的合成反应。但是，即使是有限的材料合成反应数据库也可以对合成参数与反应产物之间的关系产生有价值的见解，例如Kim等人所证明的那样。

在这项工作中，作者演示了一种半监督的机器学习方法，用于根据书面自然语言对无机材料的合成程序进行分类。无需任何人工输入，潜在的Dirichlet分配就可以将关键字聚集到与特定实验材料合成步骤相对应的主题，例如“研磨”和“加热”，“溶解”和“离心分离”等。在少量注释的指导下，随机分类可以将这些步骤与不同类别的材料合成（例如固态或水热合成）相关联。

最后，作者证明了实验步骤顺序的马尔可夫链表示可以准确地重建可能的合成程序流程图。这种机器学习方法提供了一种可扩展的方法，可以从文献中解锁大量的无机材料合成信息，并将其处理为标准化的机器可读数据库。

文献链接：

Semi-supervised machine-learning classication of materials synthesis procedures （npj Computational Materials， 2019， DOI： 10.1038/s41524-019-0204-1）

4. npj Computational Materials：机器学习在固态材料科学中的最新进展和应用

机器学习

机器学习是近年来进入材料科学的最令人兴奋的研究方法之一。这种统计方法的收集已经证明能够大大加快基础研究和应用研究的速度。目前，科研工作者已经见证了将机器学习广泛应用于材料研究的实例。

在这篇文章中，作者提供了有关机器学习在材料研究中的最新研究的全面概述和分析。首先，作者介绍材料科学中的机器学习原理、算法、描述符和数据库。随后，作者继续介绍了不同的机器学习方法，以发现稳定的材料并预测其晶体结构。然后，作者讨论了众多定量结构与属性之间的关系，以及通过机器学习替代第一原理计算的各种方法。

这篇综述回顾了如何应用主动学习和基于算法的优化来改善合理的设计过程和相关的应用示例。两个主要问题始终是机器学习模型的可解释性和对机器学习模型的物理理解。因此，作者考虑了可解释性的不同方面及其在材料科学中的重要性。最后，文章针对计算材料科学中的各种挑战提出了解决方案和未来的研究发展。

文献链接：

Recent advances and applications of machine learning in solid-state materials science （npj Computational Materials， 2019， DOI： 10.1038/s41524-019-0221-0）

5. npj Computational Materials：通过可解释的机器学习识别高级自旋驱动热电材料

机器学习

机器学习正在成为科学发现的重要工具。机器学习方法在材料开发领域中的应用尤其吸引人，它可以通过发现新的/更好的功能材料来实现创新。要将机器学习应用于实际的材料开发，科学家和机器学习工具之间必须紧密协作。但是，到目前为止，许多机器学习算法的黑匣子属性都阻碍了这种协作。从材料科学和物理学的观点来看，科学家通常很难解释数据驱动的模型。

在这个工作中，作者通过使用一种可解释的机器学习方法来说明具有异常能斯特效应的自旋驱动热电材料的发展。基于材料科学和物理学的先验知识，作者能够从可解释的机器学习中提取一些相关性以及有关自旋驱动热电材料的新知识。在此指导下，作者进行了实际的材料合成，从而确定了新型自旋驱动的热电材料。

文献链接：

Identication of advanced spin-driven thermoelectric materials via interpretable machine learning （npj Computational Materials， 2019， DOI： 10.1038/s41524-019-0241-9）

6. npj Computational Materials：可靠且可解释的机器学习方法可加速材料的开发

机器学习

尽管ML在商业应用中表现出色，但是将ML应用于材料科学仍存在一些独特的挑战。在这种情况下，这项工作是双重的。

首先，当从代表性不足/失衡的材料数据中学习时，作者确定了现有机器学习技术的常见陷阱。具体而言，在数据不平衡的情况下，评估ML模型质量的标准方法会有问题，并导致令人误解的结论。

此外，作者发现模型本身的置信度得分不能被信任，模型自省方法（使用更简单的模型）也无济于事，因为它们会导致预测性能下降（可靠性与可解释性之间的权衡）。

其次，为了克服这些挑战，作者提出了一个通用的可解释且可靠的机器学习框架。具体来说，作者提出了一种通用方法，该方法采用一组更简单的模型来可靠地预测材料特性。文章还提出了一种转移学习技术，并表明可以通过利用不同材料特性之间的相关性来克服由于模型简单而导致的性能损失。同时，还提出了一种新的评估指标和一个信任分数，以更好地量化预测中的置信度。为了提高可解释性，作者在框架中添加了基本原理生成器组件，该组件提供了模型级别和决策级别的解释。

最后，文章证明了这种技术在两种应用中的多功能性：（1）预测晶体化合物的特性；（2）确定潜在稳定的太阳能电池材料。文章还指出了ML在材料科学中的成功应用尚待解决的一些悬而未决的问题。

文献链接：

Reliable and explainable machine-learning methods for accelerated material discovery （npj Computational Materials， 2019， DOI： 10.1038/s41524-019-0248-2）

7. Nat. Mater.：利用机器学习进行药物发现和开发

机器学习

各种各样的机器学习方法，例如贝叶斯（Bayesian），支持向量以及最近的深度神经网络，都证明了它们在药物发现和开发中的效用。这利用了从高通量筛选数据创建的更大的数据集，并能够以更高的准确度预测目标和分子特性的生物活性。

科研工作者才刚刚开始挖掘这些技术的潜力，但是它们可能已经从根本上改变了识别新分子或重新使用旧药物的研究过程。这种针对端到端（E2E）应用的机器学习模型的集成应用具有广泛的意义，并且对开发未来的疗法及其目标具有重要意义。

文献链接：

Exploiting machine learning for end-to-end drug discovery and development （Nat. Mater.， 2019， DOI： 10.1038/s41563-019-0338-z）

8. Nature Reviews Chemistry：人工智能驱动的有机合成化学

机器学习

合成有机化学是化学领域的基础，包括药物发现、化学生物学、材料科学和工程学。但是，执行复杂的化学合成本身需要很丰富的背景知识，通常是在多年的研究和动手实验实践中获得的。具有简化和自动化化学合成潜力的技术开发是一个耗费半世纪尚未实现的努力。随着计算能力、数据可用性和算法的提高，人们对人工智能（AI）的兴趣再次兴起。

在这篇综述中，作者讨论了AI对合成化学不同任务的近期影响，并从文献中剖析了一些实例。通过研究基本概念，作者旨在使化学家了解AI，以便他们可以将其作为工具，通过指出知识差距并描绘化学AI如何在化学工业中运行来刺激未来的研究。

打开APP阅读更多精彩内容