LLM2D
FastMem:快速提示记忆提升大型语言模型的上下文感知能力
FastMem: Fast Memorization of Prompt Improves Context Awareness of Large Language Models
作者: Junyi Zhu, Shuochen Liu, Yu Yu, Bo Tang, Yibo Yan, Zhiyu Li, Feiyu Xiong, Tong Xu, Matthew B. Blaschko
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.16069v3

摘要

大型语言模型 (LLMs) 擅长生成连贯的文本,但它们在上下文感知方面往往存在困难,导致在需要忠实遵循提供信息的的任务中出现不准确。我们介绍了 FastMem,这是一种新方法,旨在通过快速记忆提示来增强指令微调的 LLMs 的上下文感知能力。FastMem 通过仅更新最后一个前馈网络 (FFN) 模块来最大化推断前提示的可能性。这种有针对性的方法确保了高效优化,不会过度拟合,从而显著提高模型理解和准确遵循上下文的能力。我们的实验表明,在阅读理解、文本摘要和输出结构遵守方面取得了实质性进展。例如,FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%,并将 Qwen 1.5-4B-Chat 的输出结构失败率从 34.9% 降低到 25.5%。大量的实验结果突出了 FastMem 在增强各种应用中 LLMs 的可靠性和准确性方面的潜力。我们的代码可在以下地址获取:https://github.com/IAAR-Shanghai/FastMem