摘要
arXiv:2403.04197v3 公告类型: 替换-交叉
摘要:大型语言模型(LLMs)在生物化学任务中展现出了卓越的表现,特别是在分子-图例翻译任务中,该任务旨在弥合分子和自然语言文本之间的差距。然而,将LLMs适应分子-图例翻译任务的先前方法需要额外的领域特定预训练阶段,存在分子空间和文本空间之间的弱对齐问题,或者对LLMs的规模提出了苛刻的要求。为了解决这些挑战,我们提出了上下文内分子适应(ICMA)作为一种新的范式,允许LLMs通过上下文内分子调优从上下文示例中学习分子-文本对齐。具体来说,ICMA包含以下三个阶段:混合上下文检索、检索后重新排名和上下文内分子调优。首先,混合上下文检索利用BM25图例检索和分子图检索来检索相似的有信息量的上下文示例。此外,检索后的重新排名由序列反转和随机行走选择组成,以进一步提高检索结果的质量。最后,上下文内分子调优为检索的示例解锁了LLMs的上下文学习和推理能力,并调整了LLMs的参数以实现更好的分子和文本对齐。实验结果表明,ICMA可以在无需额外训练语料库和复杂结构的情况下,使LLMs达到最先进的或可比的性能,显示了LLMs天生具有上下文内分子学习能力。