摘要
检索增强语言模型 (RALM) 近年来在弥合大型语言模型 (LLM) 隐式知识局限性方面展现出巨大潜力,例如最新专业知识的更新不及时以及对长尾知识的可靠保留。然而,由于外部知识库以及检索器无法保证可靠性,可能会导致检索到的知识对 LLM 生成无用甚至具有误导性。在本文中,我们介绍了基于支持度的知识重写 (SKR),这是一种鲁棒且可插拔的知识重写器,其本质上针对 LLM 生成进行了优化。具体而言,我们引入了“支持度”这一新概念,它通过考虑增强知识对白盒 LLM 响应文本的困惑度影响来表示知识片段对下游任务的有效性。基于知识支持度,我们首先设计了重写器模型的训练数据整理策略,有效地识别并过滤掉质量差或不相关的重写(例如,具有低支持度分数的重写),以提高数据效率。然后,我们引入了直接偏好优化 (DPO) 算法,以将生成的重写与最佳支持度对齐,引导重写器模型对增强内容进行总结,从而更好地改进最终响应。在六个流行的知识密集型任务和四个 LLM 上进行的综合评估证明了 SKR 的有效性和优越性。SKR 仅具有 70 亿个参数,就展示了比当前最先进的通用 LLM GPT-4 更好的知识重写能力。