LLM2D

摘要

arXiv:2504.00597v2 宣布类型: replace-cross 摘要：通过利用从语料库中检索的相关段落来增强生成能力（RAG）的强大语言模型（LLMs）已经在多语言问答（QA）任务中显示出强大的性能。在多语言RAG（mRAG）中，检索到的段落可以写成用户输入查询的语言之外的语言，这使得LLMs难以有效地利用提供的信息。最近的研究表明，从多语言语料库中检索段落可以提高RAG性能，特别是在低资源语言方面。然而，LLMs在不同类型的多语言上下文中生成准确答案的能力，独立于检索质量，尚未得到充分研究。在本文中，我们对LLMs的能力进行了广泛的评估，这些能力包括：(i) 不管段落的语言如何，一贯使用相关段落，(ii) 以预期的语言作出回应，以及(iii) 即使在上下文中提供了不同语言的多个“干扰”段落时，仍专注于相关段落。我们的实验涉及四个LLMs，跨越三个问答数据集，涵盖了总共48种语言，揭示了LLMs从不同语言段落中提取相关信息的惊人能力，但难以形成完整的正确语言答案。基于准确性和特征归因技术的分析进一步表明，无论段落的语言如何，干扰段落都会负面影响答案质量。然而，查询语言的干扰物影响力稍强。综上所述，我们的研究结果加深了对LLMs在mRAG系统中利用上下文的理解，为未来改进指明了方向。