LLM2D

摘要

arXiv:2502.06890v1 交叉类型摘要：现代治疗方案中不断增加的药物组合需要可靠的方法来预测药物-药物相互作用（DDIs）。虽然大型语言模型（LLMs）已经在各个领域引发了革命，但在制药研究，特别是DDI预测方面的潜力仍然鲜有探讨。本研究深入探讨了LLMs在预测DDI方面的能力，通过独特处理分子结构（SMILES）、目标生物体和基因交互数据作为最新的DrugBank数据集中的原始文本输入。我们评估了18种不同的LLMs，包括专有模型（GPT-4、Claude、Gemini）和开源变体（参数从15亿到72亿不等），首先评估了它们在DDI预测中的零样本能力。然后，我们对选定的模型（GPT-4、Phi-3.5 2.7B、Qwen-2.5 3B、Gemma-2 9B和Deepseek R1精简的Qwen 1.5B）进行了微调，以优化其性能。我们全面的评估框架包括跨13个外部DDI数据集的验证，与传统的如L2正则化逻辑回归方法进行比较。微调后的LLMs表现出更优的性能，其中Phi-3.5 2.7B在DDI预测中的敏感性达到0.978，平衡数据集（50%阳性病例，50%阴性病例）的准确率达到0.919。这一结果在零样本预测和现有的最先进的机器学习方法上都有所提升。我们的分析表明，LLMs能够有效地捕捉复杂的分子相互作用模式，并能够在药物配对共同靶向同一基因的情况下发挥作用，使它们成为制药研究和临床应用中的宝贵工具。