LLM2D

摘要

arXiv:2504.03616v1 交叉类型：cross 摘要：检索增强生成（RAG）已成为当今自然语言处理（NLP）的基石，通过内部检索使大型语言模型（LLMs）能够访问更丰富的事实背景，从而增强其性能。虽然在单语言环境中，尤其是在英语中，其效果显著，但其在多语言任务中的应用仍然未被探索。本文通过提出针对多语言开放域问答的新方法，研究了RAG在多种语言中的有效性。我们评估了各种多语言RAG策略的表现，包括问题翻译（tRAG），即在检索前将问题翻译成英语，以及直接在多种语言之间进行检索的多语言RAG（MultiRAG）。我们的研究发现，虽然tRAG在某些方面是有用的，但它存在覆盖率有限的问题。相比之下，MultiRAG通过实现多语言检索提高了效率，但因跨语言检索获取内容的差异性而引入了不一致性。为了解决这些问题，我们提出了跨语言RAG（CrossRAG）方法，该方法在生成响应前将检索到的文档翻译成一种通用的语言（例如英语）。我们的实验表明，CrossRAG在知识密集型任务中的表现得到了显著提升，不论是高资源语言还是低资源语言均有受益。