LLM2D
利用大型语言模型进行酶促反应预测与表征
Leveraging Large Language Models for enzymatic reaction prediction and characterization
作者: Lorenzo Di Fruscia, Jana Marie Weber
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05616v1

摘要

arXiv:2505.05616v1 通告类型: 新增 摘要: 预测酶促反应对于生物催化、代谢工程和药物发现等应用至关重要,但这一任务依然复杂且资源密集。大型语言模型(LLMs)最近在各种科学领域展示了显著的成功,例如通过它们能够泛化知识、处理复杂结构以及利用上下文学习策略的能力。在这项研究中,我们系统地评估了LLMs,尤其是Llama-3.1家族(8B和70B)在三个核心生化任务中的能力:酶委分类号预测、正向合成和逆合成。我们比较了单任务学习和多任务学习策略,并采用LoRA适配器进行参数高效的微调。此外,我们评估了在不同数据集规模下的性能,以探索它们在数据量有限环境下的适应性。我们的结果显示,微调后的LLMs能够捕捉生化知识,多任务学习通过利用共享的酶促信息增强了正向和逆合成预测。我们还识别出了一些关键限制,例如在层次化的EC分类方案中的挑战,这凸现出在基于LLMs的生化建模中需要进一步改进的领域。