摘要
arXiv:2305.18407v2 Announce Type: replace-cross
摘要:分子预训练已经迅速成为提升基于AI的药物发现性能的标准方案。自然地,分子可以表示为2D拓扑图或3D几何点云。尽管大多数现有相关方法仅关注单一模态,最近的研究表明,最大化这两种模态之间的互信息(MI)可以增强分子的表征能力。同时,现有的分子多模态预训练方法是通过从拓扑和几何编码的空间中近似计算MI,从而导致丢失了分子的关键结构信息。为了解决这一问题,我们提出了MoleculeSDE。MoleculeSDE利用群对称(例如,SE(3)-仿射和反射反对称)的随机微分方程模型,直接在输入空间中从2D拓扑生成3D几何,反之亦然。它不仅获得了更紧的MI界,而且在下游任务表现上也优于之前的成果。通过与17种预训练基线进行比较,我们实验证明MoleculeSDE在32个下游任务中的26个任务上取得了最先进的性能。