摘要
arXiv:2504.03616v1 交叉类型:cross
摘要:检索增强生成(RAG)已成为当今自然语言处理(NLP)的基石,通过内部检索使大型语言模型(LLMs)能够访问更丰富的事实背景,从而增强其性能。虽然在单语言环境中,尤其是在英语中,其效果显著,但其在多语言任务中的应用仍然未被探索。本文通过提出针对多语言开放域问答的新方法,研究了RAG在多种语言中的有效性。我们评估了各种多语言RAG策略的表现,包括问题翻译(tRAG),即在检索前将问题翻译成英语,以及直接在多种语言之间进行检索的多语言RAG(MultiRAG)。我们的研究发现,虽然tRAG在某些方面是有用的,但它存在覆盖率有限的问题。相比之下,MultiRAG通过实现多语言检索提高了效率,但因跨语言检索获取内容的差异性而引入了不一致性。为了解决这些问题,我们提出了跨语言RAG(CrossRAG)方法,该方法在生成响应前将检索到的文档翻译成一种通用的语言(例如英语)。我们的实验表明,CrossRAG在知识密集型任务中的表现得到了显著提升,不论是高资源语言还是低资源语言均有受益。