LLM2D
BOOM: 评估机器学习模型在分布外分子性质预测中的表现
BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models
作者: Evan R. Antoniuk, Shehtab Zaman, Tal Ben-Nun, Peggy Li, James Diffenderfer, Busra Demirci, Obadiah Smolenski, Tim Hsu, Anna M. Hiszpanski, Kenneth Chiu, Bhavya Kailkhura, Brian Van Essen
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01912v1

摘要

arXiv:2505.01912v1 Announce Type: cross 摘要:深度学习和生成建模的进步推动了数据驱动的分子发现管道的研究,其中机器学习(ML)模型用于筛选和设计新颖的分子,而不需要昂贵的第一性原理模拟。虽然发现超出已知化学界限的新分子需要准确的离域分布(OOD)预测,但ML模型通常难以一般化到OOD场景。此外,当前没有系统地评估分子OOD预测任务的表现。我们介绍了BOOM,即分子性质离域分布预测基准——一种基于性质的离域分布预测模型的基准研究,用于常见分子性质预测模型。我们评估了超过140种模型和属性预测任务的组合,以基准测试深度学习模型的OOD性能。总体而言,我们没有发现任何现有模型能够在所有任务中实现强大的OOD泛化能力:即使表现最好的模型,其平均OOD误差也比在域误差大3倍。我们发现,具有高归纳偏置的深度学习模型在简单的特定属性的OOD任务中表现良好。虽然化学基础模型与迁移学习和上下文学习结合使用,提供了在有限训练数据场景中的有前途的解决方案,但我们发现当前的基础模型并不表现出强大的OOD外推能力。我们进行了广泛的消融实验,以阐明数据生成、预训练、超参数优化、模型架构和分子表示对OOD性能的影响。我们提出,开发具有强OOD泛化能力的ML模型是化学ML模型开发的新前沿挑战。这个开源基准将在Github上提供。