摘要
arXiv:2409.14459v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 的探查技术主要集中在英语上,忽视了世界上绝大多数语言。本文将这些探查方法扩展到多语言环境中,研究 LLMs 在不同语言中的行为。我们对多个开源 LLM 模型进行了实验,分析了探查准确性、跨层趋势以及多语言探查向量之间的相似性。我们的主要发现包括: (1) 高资源语言和低资源语言之间存在一致的性能差距,高资源语言的探查准确性显著更高; (2) 层级准确性趋势的分化,高资源语言在深层表现出与英语类似的显著改善; (3) 高资源语言之间的表示相似性较高,而低资源语言之间的相似性较低,且与高资源语言的相似性也较低。这些结果突显了 LLMs 多语言能力的显著差异,并强调了改进低资源语言建模的必要性。