LLM2D

摘要

arXiv:2409.14459v2 举报类型: replace-cross 摘要：针对大型语言模型（LLMs）的探针技术主要集中在英语上，忽视了世界上大多数语言。在本文中，我们将这些探针方法扩展到多语言情境中，研究LLMs在多种语言中的行为。我们对几个开源LLM模型进行了实验，分析了探针准确性、各层的趋势以及多种语言之间的探针向量相似性。我们的主要发现包括：（1）高资源语言和低资源语言之间存在一致的性能差距，高资源语言的探针准确性显著更高；（2）各层准确性的差异趋势，高资源语言在更深的层面上显示出与英语类似的显著改进；以及（3）高资源语言之间的表示相似性更高，而低资源语言自身之间的相似性较低，与高资源语言的相似性也较低。这些结果突显了LLMs在多语言能力上的显著差异，并强调了改进低资源语言建模的必要性。