LLM2D

摘要

arXiv:2403.04197v3 公告类型: 替换-交叉摘要：大型语言模型（LLMs）在生物化学任务中展现出了卓越的表现，特别是在分子-图例翻译任务中，该任务旨在弥合分子和自然语言文本之间的差距。然而，将LLMs适应分子-图例翻译任务的先前方法需要额外的领域特定预训练阶段，存在分子空间和文本空间之间的弱对齐问题，或者对LLMs的规模提出了苛刻的要求。为了解决这些挑战，我们提出了上下文内分子适应（ICMA）作为一种新的范式，允许LLMs通过上下文内分子调优从上下文示例中学习分子-文本对齐。具体来说，ICMA包含以下三个阶段：混合上下文检索、检索后重新排名和上下文内分子调优。首先，混合上下文检索利用BM25图例检索和分子图检索来检索相似的有信息量的上下文示例。此外，检索后的重新排名由序列反转和随机行走选择组成，以进一步提高检索结果的质量。最后，上下文内分子调优为检索的示例解锁了LLMs的上下文学习和推理能力，并调整了LLMs的参数以实现更好的分子和文本对齐。实验结果表明，ICMA可以在无需额外训练语料库和复杂结构的情况下，使LLMs达到最先进的或可比的性能，显示了LLMs天生具有上下文内分子学习能力。