摘要
arXiv:2505.05877v1 交叉类型
摘要:分子表示的准确提取是药物发现过程中的关键步骤。近年来,在分子表示学习方法方面取得了显著进展,其中基于图像和2D/3D拓扑的多模态分子表示方法日益主流。然而,现有的多模态方法通常直接融合不同模态的信息,忽视了跨模态交互的潜力,未能充分捕捉分子间复杂和高级的关系以及不变特征。为了克服这些挑战,我们提出了一种结构感知的多模态自监督分子表示预训练框架(MMSA),旨在通过利用分子间的不变知识来增强分子图表示。该框架包括两个主要模块:多模态分子表示学习模块和结构感知模块。多模态分子表示学习模块协同处理同一分子的不同模态信息,以克服跨模态差异并生成统一的分子嵌入。随后,结构感知模块通过构建超图结构来建模分子间的高级联系,增强分子表示。该模块还引入了存储典型分子表示的记忆机制,并将它们与记忆库中的记忆锚点对齐,以整合不变知识,从而提高模型泛化能力。广泛的实验表明,MMSA 的有效性,它在 MoleculeNet 基准测试中实现了最先进的性能,平均 ROC-AUC 提高范围从 1.8% 到 9.6%,超过基线方法。