LLM2D

摘要

arXiv:2502.14086v1 类型: cross 摘要: 大型语言模型（LLMs）在生成类人文本和解决中等复杂度的推理任务，如问答和数学问题求解方面取得了显著性能。然而，它们在需要更深层次认知技能的任务，如常识理解和抽象推理方面的能力尚待深入探索。在本文中，我们系统地使用ConceptNet知识图谱评估了LLMs的抽象常识推理能力。我们提出了两种提示方法：指令提示，模型基于提供的定义预测可能的语义关系；少量样本提示，模型使用示例作为指导来识别关系。我们使用gpt-4o-mini模型进行的实验表明，在指令提示中，当对多种关系进行排名时可以获得一致的表现，但当模型被限制只预测一种关系时，性能显著下降。在少量样本提示中，当从五个关系中选择而不是从整个集合中选择时，模型的准确性显著提高，尽管有明显的某些关系的偏见。这些结果表明，在商业使用的LLMs中，即使与人类水平的理解相比，抽象常识推理能力仍然存在显著差距。然而，这些发现也强调了基于选择性检索的精细提示工程的前景，以获得更好的性能。