摘要
arXiv:2403.04197v4 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在生物化学任务中表现出色,特别是在分子图描述翻译任务中,该任务旨在弥合分子与自然语言文本之间的差距。然而,之前将LLMs适应到分子图描述翻译任务的方法需要额外的领域特定预训练阶段,分子空间与文本空间之间的对齐较弱,或者对LLMs的规模提出了严格的要求。为了解决这些挑战,我们提出了一种新的范式In-Context Molecule Adaptation(ICMA),允许LLMs通过In-Context Molecule Tuning从上下文示例中学习分子文本对齐。具体而言,ICMA包含以下三个阶段:Hybrid Context Retrieval、Post-retrieval Re-ranking和In-context Molecule Tuning。最初,Hybrid Context Retrieval结合了BM25图像检索和分子图检索,以检索相似的知情上下文示例。此外,Post-retrieval Re-ranking包括序列反转和随机行走选择,以进一步提高检索结果的质量。最后,In-Context Molecule Tuning解锁了LLMs的上下文学习和推理能力,利用检索到的示例适应LLMs的参数,以实现更好的分子文本对齐。实验结果表明,ICMA可以在无需额外训练语料库和复杂结构的情况下使LLMs达到最先进的或可比的性能,表明LLMs本质上是具有上下文学习能力的分子学习者。