LLM2D

摘要

arXiv:2505.02639v1 宣传类型：跨领域摘要：化学反应和逆合成预测是药物发现中的基本任务。近年来，大规模语言模型（LLMs）在许多领域显示出潜力。然而，直接将LLMs应用于这些任务面临两大挑战：（i）缺乏大规模的化学合成相关指令数据集；（ii）忽略了现有微调策略中反应和逆合成预测之间的密切关联。为了解决这些挑战，我们提出了一种名为ChemDual的新颖LLM框架，以实现精确的化学合成。具体而言，考虑到获取反应和逆合成数据的成本较高，ChemDual将分子的反应和逆合成视为相关重组和碎片化过程，并构建了一个包含440万条指令的大规模数据集。此外，ChemDual引入了一种增强的LLaMA，配备了多尺度标记器和双任务学习策略，以联合优化重组和碎片化过程以及反应和逆合成预测之间的任务。在Mol-Instruction和USPTO-50K数据集上的广泛实验表明，ChemDual在反应和逆合成预测方面均取得了最先进的性能，优于现有的常规单任务方法和通用开源LLM。通过分子对接分析，ChemDual生成了具有多样性和强蛋白结合亲和力的化合物，进一步突显了其在药物设计方面的强大潜力。