LLM2D

摘要

有机合成是化学工业的基石。开发强大的机器学习模型来支持与有机反应相关的任务具有重要意义。然而，当前的方法依赖于手工设计的特征或来自其他领域的模型架构的直接改编，这在数据规模增加时缺乏可行性，或者忽略了反应中固有的丰富化学信息。为了解决这些问题，本文介绍了一种名为{\modelname}的新型化学反应表示学习模型，该模型适用于各种与有机反应相关的任务。通过整合反应物和产物之间的原子对应关系，我们的模型能够辨别反应过程中发生的分子转化，从而增强对反应机理的理解。我们设计了一种适配器结构，将反应条件融入化学反应表示中，使模型能够处理不同的反应条件，并适应各种数据集和下游任务，例如反应性能预测。此外，我们引入了一种反应中心感知注意力机制，使模型能够集中于关键官能团，从而生成有效的化学反应表示。我们的模型已在一系列下游任务中进行了评估，包括反应条件预测、反应产率预测和反应选择性预测。实验结果表明，我们的模型在所有任务上都明显优于现有的化学反应表示学习架构。值得注意的是，在USPTO\_CONDITION数据集上进行反应条件预测时，我们的模型在准确率方面显著优于所有基线，最高提升了25%（top-1）和16%（top-10）。我们计划在论文被接受后开源代码。