LLM2D

摘要

arXiv:2504.12323v2 更新类型: 交叉替换摘要: 通过从外部知识源检索相关文档来增强大型语言模型 (LLMs) 的检索增强生成 (RAG) 技术，通过引用这些外部知识，RAG 有效减少了 LLMs 生成事实错误内容的问题，并解决了 LLMs 中的幻觉问题。最近，从多个角度提高 RAG 系统的性能和效率引起了越来越多的关注。尽管这些进步取得了显著成果，但在具有重大社会影响的领域应用 RAG 也引发了一个关键问题：RAG 架构引入的影响对 LLMs 的公平性有何影响？为了解答这个问题，我们通过改变 LLMs、检索器和检索源进行了广泛的实验。我们的实验分析表明，LLM 的规模在 RAG 框架内的公平性结果中起着重要作用。当模型规模小于 8B 时，检索机制的整合往往会加剧小型规模 LLMs（例如，LaLaMA3.2-1B、Mistral-7B 和 LaLaMA3-8B）的不公平性。为缓解由 RAG 引入的小型规模 LLMs 的公平性问题，我们提出了两种方法，FairFT 和 FairFilter。具体来说，在 FairFT 中，我们将检索器与 LLM 在公平性方面对齐，使其能够检索出有利于更公平模型输出的文档。在 FairFilter 中，我们提出了一种公平性过滤机制，在检索后过滤掉有偏见的内容。最后，我们在实际数据集上验证了我们提出的两种方法，展示了它们在提高公平性的同时保持性能的有效性。