LLM2D

摘要

arXiv:2503.19260v1 类型: cross 摘要：大型语言模型（LLMs）是当今许多AI应用程序的基础。尽管它们在生成连贯文本方面表现出色，但对于执行细粒度的语言注释任务（如检测名词或动词，或识别在输入文本中的更复杂的句法结构，例如子句）的能力仍然存在疑问。这些任务需要对输入文本进行精确的句法和语义理解，而当LLMs在特定的语言结构上表现不佳时，这引发了对其在详细语言分析方面的可靠性的担忧，以及它们（即便正确）的输出是否真正反映了对输入的理解。在这篇论文中，我们通过对最近的LLMs在细粒度语言注释任务上的表现进行实证研究，发现最近的LLMs在解决语言查询方面效果有限，并且往往难以处理复杂语言输入。我们展示了最具能力的LLM（Llama3-70b）在检测语言结构时会犯出显著的错误，如错误识别嵌入的子句，无法识别动词短语，以及将复杂的名词短语与子句混淆。我们的结果为未来LLM设计和开发提供了洞察。