摘要
arXiv:2503.19260v1 类型: cross
摘要:大型语言模型(LLMs)是当今许多AI应用程序的基础。尽管它们在生成连贯文本方面表现出色,但对于执行细粒度的语言注释任务(如检测名词或动词,或识别在输入文本中的更复杂的句法结构,例如子句)的能力仍然存在疑问。这些任务需要对输入文本进行精确的句法和语义理解,而当LLMs在特定的语言结构上表现不佳时,这引发了对其在详细语言分析方面的可靠性的担忧,以及它们(即便正确)的输出是否真正反映了对输入的理解。在这篇论文中,我们通过对最近的LLMs在细粒度语言注释任务上的表现进行实证研究,发现最近的LLMs在解决语言查询方面效果有限,并且往往难以处理复杂语言输入。我们展示了最具能力的LLM(Llama3-70b)在检测语言结构时会犯出显著的错误,如错误识别嵌入的子句,无法识别动词短语,以及将复杂的名词短语与子句混淆。我们的结果为未来LLM设计和开发提供了洞察。