摘要
活动悬崖是指结构相似但活性差异显著的分子对,可能导致模型表示崩溃,使模型难以区分它们。我们的研究表明,随着分子相似性的增加,基于图的方法难以捕捉这些细微差别,而基于图像的方法则能有效保留这些差异。因此,我们开发了MaskMol,一种知识引导的分子图像自监督学习框架。MaskMol通过考虑原子、键和子结构等多层次的分子知识,准确学习分子图像的表示。通过利用像素掩码任务,MaskMol从分子图像中提取细粒度信息,克服了现有深度学习模型在识别微小结构变化方面的局限性。实验结果表明,MaskMol在活动悬崖估计和化合物活性预测方面具有高准确性和可迁移性,优于25种最先进的深度学习和机器学习方法。可视化分析揭示了MaskMol在识别与活动悬崖相关的分子子结构方面的高生物学可解释性。值得注意的是,通过MaskMol,我们发现了可用于治疗肿瘤的候选EP4抑制剂。本研究不仅提高了对活动悬崖的认识,还引入了一种新的分子图像表示学习和虚拟筛选方法,推动了药物发现,并为结构-活性关系(SAR)提供了新的见解。