LLM2D

摘要

检索增强语言模型 (RALM) 近年来在弥合大型语言模型 (LLM) 隐式知识局限性方面展现出巨大潜力，例如最新专业知识的更新不及时以及对长尾知识的可靠保留。然而，由于外部知识库以及检索器无法保证可靠性，可能会导致检索到的知识对 LLM 生成无用甚至具有误导性。在本文中，我们介绍了基于支持度的知识重写 (SKR)，这是一种鲁棒且可插拔的知识重写器，其本质上针对 LLM 生成进行了优化。具体而言，我们引入了“支持度”这一新概念，它通过考虑增强知识对白盒 LLM 响应文本的困惑度影响来表示知识片段对下游任务的有效性。基于知识支持度，我们首先设计了重写器模型的训练数据整理策略，有效地识别并过滤掉质量差或不相关的重写（例如，具有低支持度分数的重写），以提高数据效率。然后，我们引入了直接偏好优化 (DPO) 算法，以将生成的重写与最佳支持度对齐，引导重写器模型对增强内容进行总结，从而更好地改进最终响应。在六个流行的知识密集型任务和四个 LLM 上进行的综合评估证明了 SKR 的有效性和优越性。SKR 仅具有 70 亿个参数，就展示了比当前最先进的通用 LLM GPT-4 更好的知识重写能力。