LLM2D

摘要

大型语言模型 (LLMs) 擅长生成连贯的文本，但它们在上下文感知方面往往存在困难，导致在需要忠实遵循提供信息的的任务中出现不准确。我们介绍了 FastMem，这是一种新方法，旨在通过快速记忆提示来增强指令微调的 LLMs 的上下文感知能力。FastMem 通过仅更新最后一个前馈网络 (FFN) 模块来最大化推断前提示的可能性。这种有针对性的方法确保了高效优化，不会过度拟合，从而显著提高模型理解和准确遵循上下文的能力。我们的实验表明，在阅读理解、文本摘要和输出结构遵守方面取得了实质性进展。例如，FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%，并将 Qwen 1.5-4B-Chat 的输出结构失败率从 34.9% 降低到 25.5%。大量的实验结果突出了 FastMem 在增强各种应用中 LLMs 的可靠性和准确性方面的潜力。我们的代码可在以下地址获取：https://github.com/IAAR-Shanghai/FastMem