LLM2D

摘要

arXiv:2503.17656v2 通知类型: 替换-交叉摘要：天然产物作为来自微生物、动物或植物的代谢物，表现出多样的生物活性，使其在药物发现中至关重要。如今，现有的用于天然产物研究的深度学习方法主要依赖于为特定下游任务设计的监督学习方法。然而，这种单一模型对应单一任务的范式往往缺乏泛化能力，并且在性能提升上仍有很大的改进空间。此外，现有的分子表征方法并不适合与天然产物相关的独特任务。为了解决这些限制，我们基于天然产物的独特特性预训练了一个基础模型。我们的方法采用了一种特别针对天然产物的新型预训练策略。通过结合对比学习和掩码图学习目标，我们强调了分子骨架的进化信息，同时捕捉侧链信息。我们的框架在各种与天然产物挖掘和药物发现相关的下游任务中达到了最先进的（SOTA）结果。我们首先将分类学分类与以合成分子为重点的基线模型进行比较，以证明当前模型在理解天然合成方面的能力不足。通过在基因和微生物层面进行细致分析，NaFM展示了捕捉进化信息的能力。最终，我们的方法在虚拟筛选中的实验展示了富有信息量的天然产物表示，有助于更有效地识别潜在药物候选物。