LLM2D

摘要

arXiv:2505.05616v1 通告类型: 新增摘要: 预测酶促反应对于生物催化、代谢工程和药物发现等应用至关重要，但这一任务依然复杂且资源密集。大型语言模型（LLMs）最近在各种科学领域展示了显著的成功，例如通过它们能够泛化知识、处理复杂结构以及利用上下文学习策略的能力。在这项研究中，我们系统地评估了LLMs，尤其是Llama-3.1家族（8B和70B）在三个核心生化任务中的能力：酶委分类号预测、正向合成和逆合成。我们比较了单任务学习和多任务学习策略，并采用LoRA适配器进行参数高效的微调。此外，我们评估了在不同数据集规模下的性能，以探索它们在数据量有限环境下的适应性。我们的结果显示，微调后的LLMs能够捕捉生化知识，多任务学习通过利用共享的酶促信息增强了正向和逆合成预测。我们还识别出了一些关键限制，例如在层次化的EC分类方案中的挑战，这凸现出在基于LLMs的生化建模中需要进一步改进的领域。