LLM2D

摘要

arXiv:2504.00597v1 宣告类型：交叉摘要：通过利用从语料库中检索的相关段落，大型语言模型（LLMs）增强的检索生成（RAG）在多语言问答（QA）任务中展示了出色的表现。在多语言RAG（mRAG）中，检索到的段落可以使用与用户输入查询语言不同的语言书写，这给LLMs有效地利用提供的信息带来了挑战。最近的研究表明，从多语言语料库中检索段落可以改善RAG性能，特别是在低资源语言方面。然而，LLMs在不同类型的多语言上下文中生成准确答案的能力，*独立于检索质量*，仍需进一步研究。在本文中，我们对LLMs的能力进行了广泛的评估，包括：(i) 不论段落语言如何，一致地利用相关段落；(ii) 以预期的语言作答；(iii) 即使在提供多个‘分散’的其他语言段落的情况下，仍专注于相关段落。我们在涵盖共48种语言的三个QA数据集中对四种LLMs进行的实验揭示出，LLMs从非本语言段落中提取相关信息的能力令人惊讶，但它们以正确语言形成完整答案的能力则较弱。基于准确性和特征归因技术的分析进一步表明，无论段落语言如何，分散段落都会负面影响答案质量。然而，查询语言中的分散段落的影响稍微更强。综上所述，我们的研究结果加深了对LLMs在mRAG系统中利用上下文的理解，为未来改进提供了方向。