摘要
以英语为中心的的大型语言模型 (LLM) 通常表现出强大的多语言能力。然而,这些模型的多语言性能仍然不清楚,并且尚未针对许多语言进行彻底评估。大多数多语言基准测试侧重于经典的自然语言处理任务,或者涵盖的语言数量很少。我们介绍了 MEXA,这是一种使用平行句子评估以英语为中心的预训练 LLM 的多语言能力的方法,这些句子可用于比现有下游任务更多的语言。MEXA 利用了以英语为中心的 LLM 在其中间层使用英语作为一种枢纽语言的事实。它使用平行句子计算英语和非英语语言之间的对齐,以评估语言理解从英语到其他语言的迁移。这种对齐可以用来估计模型在其他语言中的性能。我们使用各种平行数据集 (FLORES-200 和圣经)、模型 (Llama 家族、Gemma 家族、Mistral 和 OLMo) 以及已建立的下游任务 (Belebele、m-MMLU 和 m-ARC) 进行了研究。我们探索了在仅解码器模型中计算嵌入的不同方法。我们的结果表明,MEXA 在其默认设置下,在九个模型和两个平行数据集上,与三个已建立的下游任务的平均皮尔逊相关性达到 0.90 的统计学显着性。这表明 MEXA 是一种可靠的方法,可以用来估计以英语为中心的 LLM 的多语言能力,从而更清楚地了解其多语言潜力以及 LLM 的内部运作机制。排行榜:https://huggingface.co/spaces/cis-lmu/Mexa,代码:https://github.com/cisnlp/Mexa。