LLM2D

摘要

arXiv:2403.04197v4 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在生物化学任务中表现出色，特别是在分子图描述翻译任务中，该任务旨在弥合分子与自然语言文本之间的差距。然而，之前将LLMs适应到分子图描述翻译任务的方法需要额外的领域特定预训练阶段，分子空间与文本空间之间的对齐较弱，或者对LLMs的规模提出了严格的要求。为了解决这些挑战，我们提出了一种新的范式In-Context Molecule Adaptation（ICMA），允许LLMs通过In-Context Molecule Tuning从上下文示例中学习分子文本对齐。具体而言，ICMA包含以下三个阶段：Hybrid Context Retrieval、Post-retrieval Re-ranking和In-context Molecule Tuning。最初，Hybrid Context Retrieval结合了BM25图像检索和分子图检索，以检索相似的知情上下文示例。此外，Post-retrieval Re-ranking包括序列反转和随机行走选择，以进一步提高检索结果的质量。最后，In-Context Molecule Tuning解锁了LLMs的上下文学习和推理能力，利用检索到的示例适应LLMs的参数，以实现更好的分子文本对齐。实验结果表明，ICMA可以在无需额外训练语料库和复杂结构的情况下使LLMs达到最先进的或可比的性能，表明LLMs本质上是具有上下文学习能力的分子学习者。