LLM2D
探索语义关系:语言模型在抽象常识推理中的挑战
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning
作者: Cole Gawin, Yidan Sun, Mayank Kejriwal
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14086v1

摘要

arXiv:2502.14086v1 类型: cross 摘要: 大型语言模型(LLMs)在生成类人文本和解决中等复杂度的推理任务,如问答和数学问题求解方面取得了显著性能。然而,它们在需要更深层次认知技能的任务,如常识理解和抽象推理方面的能力尚待深入探索。在本文中,我们系统地使用ConceptNet知识图谱评估了LLMs的抽象常识推理能力。我们提出了两种提示方法:指令提示,模型基于提供的定义预测可能的语义关系;少量样本提示,模型使用示例作为指导来识别关系。我们使用gpt-4o-mini模型进行的实验表明,在指令提示中,当对多种关系进行排名时可以获得一致的表现,但当模型被限制只预测一种关系时,性能显著下降。在少量样本提示中,当从五个关系中选择而不是从整个集合中选择时,模型的准确性显著提高,尽管有明显的某些关系的偏见。这些结果表明,在商业使用的LLMs中,即使与人类水平的理解相比,抽象常识推理能力仍然存在显著差距。然而,这些发现也强调了基于选择性检索的精细提示工程的前景,以获得更好的性能。