LLM2D

摘要

大型语言模型 (LLM) 通过检索增强生成 (RAG) 的增强，为网络搜索引入了一种新的范式。然而，LLM 的有限上下文感知能力降低了它们在 RAG 任务上的性能。现有的增强上下文感知能力的方法通常效率低下，在推理过程中会产生时间或内存开销，而且许多方法都是针对特定的位置嵌入而设计的。在本文中，我们提出了位置嵌入无关的注意力重加权 (PEAR)，它在不增加推理开销的情况下增强了 LLM 的上下文感知能力。具体来说，在专注于上下文复制的代理任务上，我们首先检测到抑制模型上下文感知能力并因此降低 RAG 性能的注意力头。为了减弱这些注意力头的影响，我们使用可学习的系数对其输出进行重新加权。LLM（参数固定）通过调整这些系数来最小化代理任务上的损失进行优化。因此，系数被优化为小于 1 的值，从而降低了它们抑制 RAG 性能的倾向。在推理过程中，优化的系数被固定以重新加权这些注意力头，而与具体的任务无关。我们提出的 PEAR 与之前的方法相比具有两大优势：(1) 它在内存使用或推理时间方面没有引入额外的推理开销，同时在各种 RAG 任务上以更高的精度和效率超越了竞争基线。(2) 它独立于位置嵌入算法，确保更广泛的适用性。