LLM2D
缓解基于分数生成分子构象中的曝光偏差问题
Mitigating Exposure Bias in Score-Based Generation of Molecular Conformations
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14014v1

摘要

arXiv:2409.14014v1 公告类型: 交叉 摘要: 分子构象生成在计算化学领域提出了重大挑战。最近,扩散概率模型(DPMs)和基于分数的生成模型(SGMs)由于其生成准确构象的能力远超传统基于物理的方法而被有效利用。然而,训练与推理之间的差异引发了一个关键问题,即暴露偏差。虽然这一问题在DPMs中已被广泛研究,但SGMs中暴露偏差的存在及其有效测量仍未解决,这阻碍了包括ConfGF和Torsional Diffusion在内的补偿方法的使用。在这项工作中,我们首先提出了一种测量用于分子构象生成的SGMs中暴露偏差的方法,确认了这些模型中暴露偏差的存在并测量了其值。我们设计了一种新的补偿算法——输入扰动(IP),该算法改编自最初仅为DPMs设计的方法。实验结果表明,通过引入IP,基于SGM的分子构象模型可以显著提高生成构象的准确性和多样性。特别是通过使用IP增强的Torsional Diffusion模型,我们在GEOM-Drugs数据集上实现了新的最先进性能,并在GEOM-QM9上与之持平。我们公开了代码,地址为https://github.com/jia-975/torsionalDiff-ip。