LLM2D
评价大型语言模型在形态组构泛化方面的表现
Evaluating Morphological Compositional Generalization in Large Language Models
作者: Mete Ismayilzada, Defne Circi, Jonne S\"alev\"a, Hale Sirin, Abdullatif K\"oksal, Bhuwan Dhingra, Antoine Bosselut, Duygu Ataman, Lonneke van der Plas
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.12656v3

摘要

arXiv:2410.12656v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在各种自然语言生成和理解任务中取得了显著进展。然而,它们的语言一般化能力仍然值得怀疑,引起了人们对这些模型是否像人类一样学习语言的疑问。虽然人类在语言使用中表现出组合一般化和语言创造性,但LLMs在形态学方面再现这些能力的程度,尤其是在形态学方面尚未得到充分探索。在本文中,我们通过组合性的视角系统研究了LLMs的形态学一般化能力。我们将形态素定义为组合基本单元,并设计了一套新颖的生成性和辨别性任务来评估形态生产能力和系统性。以黏着式语言如土耳其语和芬兰语为例,我们评估了几种最新的指令微调多语言模型,包括GPT-4和Gemini。我们的分析表明,当LLMs应用于新词根时,它们在形态组合性一般化方面面临困难,随着形态学复杂性的增加,其性能急剧下降。尽管模型比随机猜测更能识别个别形态组合,但它们的表现缺乏系统性,导致与人类相比在准确度上有显著差距。