摘要
arXiv:2505.05877v2 宣告类型: 替换交叉
摘要:准确提取分子表示是药物发现过程中一个至关重要的步骤。近年来,在分子表示学习方法方面取得了显著进展,其中基于图像和2D/3D拓扑的多模态分子表示方法已成为主流。然而,现有的多模态方法通常直接融合不同模态的信息,忽略了跨模态交互的潜力,未能充分捕捉分子之间复杂的高阶关系和不变特征。为了解决这些挑战,我们提出了一种基于结构感知的多模态自监督分子表示预训练框架(MMSA),旨在通过利用分子之间不变知识来增强分子图表示。该框架由两个主要模块组成:多模态分子表示学习模块和结构感知模块。多模态分子表示学习模块通过协作处理同一分子的不同模态信息,克服跨模态差异并生成统一的分子嵌入。随后,结构感知模块通过构建超图结构来建模分子之间的高阶相关性,进而增强分子表示。该模块还引入了一种记忆机制,用于存储典型的分子表示,并将它们与记忆库中的记忆锚点对齐,以整合不变知识,从而提高模型泛化能力。大量实验表明,MMSA 的有效性,它在 MoleculeNet 基准测试上的表现优于基线方法,平均 AROC 指标提高了 1.8% 到 9.6%。