摘要
arXiv:2504.00597v2 宣布类型: replace-cross
摘要:通过利用从语料库中检索的相关段落来增强生成能力(RAG)的强大语言模型(LLMs)已经在多语言问答(QA)任务中显示出强大的性能。在多语言RAG(mRAG)中,检索到的段落可以写成用户输入查询的语言之外的语言,这使得LLMs难以有效地利用提供的信息。最近的研究表明,从多语言语料库中检索段落可以提高RAG性能,特别是在低资源语言方面。然而,LLMs在不同类型的多语言上下文中生成准确答案的能力,独立于检索质量,尚未得到充分研究。在本文中,我们对LLMs的能力进行了广泛的评估,这些能力包括:(i) 不管段落的语言如何,一贯使用相关段落,(ii) 以预期的语言作出回应,以及(iii) 即使在上下文中提供了不同语言的多个“干扰”段落时,仍专注于相关段落。我们的实验涉及四个LLMs,跨越三个问答数据集,涵盖了总共48种语言,揭示了LLMs从不同语言段落中提取相关信息的惊人能力,但难以形成完整的正确语言答案。基于准确性和特征归因技术的分析进一步表明,无论段落的语言如何,干扰段落都会负面影响答案质量。然而,查询语言的干扰物影响力稍强。综上所述,我们的研究结果加深了对LLMs在mRAG系统中利用上下文的理解,为未来改进指明了方向。