LLM2D

摘要

arXiv:2409.14014v1 公告类型: 交叉摘要: 分子构象生成在计算化学领域提出了重大挑战。最近，扩散概率模型（DPMs）和基于分数的生成模型（SGMs）由于其生成准确构象的能力远超传统基于物理的方法而被有效利用。然而，训练与推理之间的差异引发了一个关键问题，即暴露偏差。虽然这一问题在DPMs中已被广泛研究，但SGMs中暴露偏差的存在及其有效测量仍未解决，这阻碍了包括ConfGF和Torsional Diffusion在内的补偿方法的使用。在这项工作中，我们首先提出了一种测量用于分子构象生成的SGMs中暴露偏差的方法，确认了这些模型中暴露偏差的存在并测量了其值。我们设计了一种新的补偿算法——输入扰动（IP），该算法改编自最初仅为DPMs设计的方法。实验结果表明，通过引入IP，基于SGM的分子构象模型可以显著提高生成构象的准确性和多样性。特别是通过使用IP增强的Torsional Diffusion模型，我们在GEOM-Drugs数据集上实现了新的最先进性能，并在GEOM-QM9上与之持平。我们公开了代码，地址为https://github.com/jia-975/torsionalDiff-ip。