LLM2D

摘要

arXiv:2504.08874v1 交叉公告类型摘要：机器学习和贝叶斯优化（BO）算法可以显著加快化学反应的优化过程。通过迁移学习，BO算法可以在数据不足的情况下通过利用预先存在的化学信息或直接优化任务之外的数据（即源数据）而增强其效果。大规模语言模型（LLMs）已经证明，基础训练数据中包含的化学信息可以使它们在处理化学数据时具有实用性。此外，它们可以被增强并与相关的多种模态的源化学数据相结合，这些数据与优化任务相关。在这项工作中，我们研究如何从LLMs中提取化学信息并用于迁移学习以加速对反应条件的BO，从而最大化产量。具体来说，我们展示了通过调查性提示方案和偏好学习可以推断出一个用于建模嵌入在LLMs中的化学信息的效用函数；尽管在零样本设置中操作，我们发现该效用函数与参数空间中的真实实验测量（产量）显示出适度的相关性。此外，我们展示了如何利用该效用函数来聚焦于参数空间中的有前途的区域，从而改善初始BO查询的产量，并在六个数据集中研究的一半中增强了优化过程。总体而言，我们认为这项工作是缩小嵌入在LLMs中的化学知识与基于原理的BO方法加速反应优化能力之间差距的一步。