摘要
arXiv:2410.03655v2 宣布类型: 替换交叉
摘要:最近分子生成模型的发展证明了其在加速科学研究,尤其是在药物设计中的巨大潜力。然而,这些模型在生成高质量分子时通常会遇到挑战,特别是在条件场景中,必须满足特定的分子性质。在本文中,我们介绍了一种名为GeoRCG的通用框架,该框架通过结合几何表示条件和可证明的理论保证来提升分子生成模型的性能。我们将分子生成过程分解为两个阶段:首先,生成一个有信息量的几何表示;其次,在该表示的条件下生成分子。与直接生成分子相比,第一阶段易于生成的表示在引导第二阶段生成达到高质量分子方面更加目标导向且更为快速。利用EDM和SemlaFlow作为基础生成器,我们在广泛使用的QM9和GEOM-DRUG数据集上的无条件分子生成任务中观察到了显著的质量提升。更值得注意的是,在具有挑战性的条件分子生成任务中,我们的框架在最新方法上的平均性能提高了31%,这突显了基于语义丰富的几何表示条件的优势,超过了之前方法中的单独属性值条件。此外,我们显示,在这种表示引导下,扩散步骤的数量可以减少到最多100步,同时仍能保持与1000步生成质量相当的质量,从而显著加快了生成过程。