摘要
arXiv:2409.14459v2 举报类型: replace-cross
摘要:针对大型语言模型(LLMs)的探针技术主要集中在英语上,忽视了世界上大多数语言。在本文中,我们将这些探针方法扩展到多语言情境中,研究LLMs在多种语言中的行为。我们对几个开源LLM模型进行了实验,分析了探针准确性、各层的趋势以及多种语言之间的探针向量相似性。我们的主要发现包括:(1)高资源语言和低资源语言之间存在一致的性能差距,高资源语言的探针准确性显著更高;(2)各层准确性的差异趋势,高资源语言在更深的层面上显示出与英语类似的显著改进;以及(3)高资源语言之间的表示相似性更高,而低资源语言自身之间的相似性较低,与高资源语言的相似性也较低。这些结果突显了LLMs在多语言能力上的显著差异,并强调了改进低资源语言建模的必要性。