LLM2D

摘要

arXiv:2504.17497v2 宣告类型: 交叉替换摘要：虚拟筛选在现代药物发现中扮演着至关重要的角色，因为它能够识别出值得实验验证的候选分子。传统的机器学习方法，如支持向量机（SVM）和XGBoost，依赖于预定义的分子表示，这往往会导致信息丢失和潜在的偏差。相比之下，深度学习方法，特别是图卷积网络（GCNs），通过直接操作分子图提供了一种更为表达能力强且无偏见的替代方案。此外，大型语言模型（LLMs）最近在药物设计中也显示出了最先进的性能，这要归功于它们通过注意力机制从大规模数据中捕捉复杂化学模式的能力。在这篇论文中，我们提出了一种将GCNs与LLMs提取的嵌入相结合的混合架构，以结合局部结构学习和全局化学知识。LLMs嵌入可以预先计算并存储在分子特征库中，从而在训练或推断过程中无需重新运行LLM，从而保持计算效率。我们发现，在每个GCN层之后连接LLMs嵌入，而不仅仅是最终层，可以显著提高性能，使得全局上下文在整个网络中更深入地集成。结果表明，该模型取得了更好的效果，F1分数为88.8%，超过了单独的GCN（87.9%），XGBoost（85.5%）和SVM（85.4%）基线。