LLM2D

摘要

大型语言模型 (LLMs) 结合检索增强生成 (RAG) 为网络搜索带来了新的范式。然而，LLMs 的上下文感知能力有限，导致它们在 RAG 任务上的表现下降。现有的增强上下文感知方法通常效率低下，在推理过程中会产生时间或内存开销，而且许多方法都是针对特定的位置嵌入而设计的。本文提出了一种与位置嵌入无关的注意力重新加权 (PEAR) 方法，该方法无需推理开销即可增强 LLMs 的上下文感知能力。具体来说，在一个专注于上下文复制的代理任务中，我们首先检测出抑制模型上下文感知能力从而降低 RAG 性能的注意力头。为了减弱这些头的影响，我们使用可学习的系数对其输出进行重新加权。通过调整这些系数以最小化代理任务的损失，对 LLM（参数冻结）进行优化。结果，系数被优化到小于 1 的值，从而降低了它们抑制 RAG 性能的趋势。在推理过程中，无论任务如何，这些优化后的系数都会被固定以重新加权这些头。我们提出的 PEAR 方法与之前的方法相比具有两大优势：(1) 它在内存使用或推理时间方面不会引入额外的推理开销，同时在各种 RAG 任务上的准确性和效率方面都优于竞争基线。(2) 它独立于位置嵌入算法，确保更广泛的适用性。