LLM2D

摘要

arXiv:2505.01912v1 Announce Type: cross 摘要：深度学习和生成建模的进步推动了数据驱动的分子发现管道的研究，其中机器学习（ML）模型用于筛选和设计新颖的分子，而不需要昂贵的第一性原理模拟。虽然发现超出已知化学界限的新分子需要准确的离域分布（OOD）预测，但ML模型通常难以一般化到OOD场景。此外，当前没有系统地评估分子OOD预测任务的表现。我们介绍了BOOM，即分子性质离域分布预测基准——一种基于性质的离域分布预测模型的基准研究，用于常见分子性质预测模型。我们评估了超过140种模型和属性预测任务的组合，以基准测试深度学习模型的OOD性能。总体而言，我们没有发现任何现有模型能够在所有任务中实现强大的OOD泛化能力：即使表现最好的模型，其平均OOD误差也比在域误差大3倍。我们发现，具有高归纳偏置的深度学习模型在简单的特定属性的OOD任务中表现良好。虽然化学基础模型与迁移学习和上下文学习结合使用，提供了在有限训练数据场景中的有前途的解决方案，但我们发现当前的基础模型并不表现出强大的OOD外推能力。我们进行了广泛的消融实验，以阐明数据生成、预训练、超参数优化、模型架构和分子表示对OOD性能的影响。我们提出，开发具有强OOD泛化能力的ML模型是化学ML模型开发的新前沿挑战。这个开源基准将在Github上提供。