LLM2D
利用大型语言模型和双任务学习增强化学反应和逆合成预测
Enhancing Chemical Reaction and Retrosynthesis Prediction with Large Language Model and Dual-task Learning
作者: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02639v1

摘要

arXiv:2505.02639v1 宣传类型:跨领域 摘要:化学反应和逆合成预测是药物发现中的基本任务。近年来,大规模语言模型(LLMs)在许多领域显示出潜力。然而,直接将LLMs应用于这些任务面临两大挑战:(i)缺乏大规模的化学合成相关指令数据集;(ii)忽略了现有微调策略中反应和逆合成预测之间的密切关联。为了解决这些挑战,我们提出了一种名为ChemDual的新颖LLM框架,以实现精确的化学合成。具体而言,考虑到获取反应和逆合成数据的成本较高,ChemDual将分子的反应和逆合成视为相关重组和碎片化过程,并构建了一个包含440万条指令的大规模数据集。此外,ChemDual引入了一种增强的LLaMA,配备了多尺度标记器和双任务学习策略,以联合优化重组和碎片化过程以及反应和逆合成预测之间的任务。在Mol-Instruction和USPTO-50K数据集上的广泛实验表明,ChemDual在反应和逆合成预测方面均取得了最先进的性能,优于现有的常规单任务方法和通用开源LLM。通过分子对接分析,ChemDual生成了具有多样性和强蛋白结合亲和力的化合物,进一步突显了其在药物设计方面的强大潜力。