摘要
arXiv:2407.05502v3 宣布类型: replace-cross
摘要:尽管大型语言模型(LLM)的多语言能力为克服语言障碍提供了新的机会,但在已知存在语言隔阂和多语言来源之间知识冲突的实际场景中,这些能力是否真正转化为实际应用?在本文中,我们研究了LLM在跨语言RAG(检索-生成)信息检索设置中的语言偏好。我们发现,无论是文档检索还是答案生成,LLM都系统性地偏向于查询语言相同的语言信息。此外,在查询语言无可用信息的情况下,LLM在生成过程中更倾向于使用高资源语言的文档,这可能进一步强化主导观点。这种偏见既存在于事实性查询中,也存在于观点性查询中。我们的结果突显了多语言LLM在信息检索系统中的语言隔阂。LLM看似有益的多语言能力可能会通过强化语言特定的信息茧房或过滤泡,进一步边缘化低资源观点,从而损害信息平等。