LLM2D

摘要

arXiv:2502.08946v1 Announce Type: cross 摘要：以系统的方式，我们探讨了一个普遍关注的问题：大型语言模型（LLMs）是否真正理解它们所说的内容？这与一个更为熟悉的术语“随机鹦鹉”相关。为此，我们提出了一项综合评估，通过一项精心设计的物理概念理解任务PhysiCo来实现。该任务通过使用网格格式的输入来抽象描述物理现象，从而缓解了记忆问题。网格代表了从核心现象到应用示例再到网格世界中其他抽象模式的各种理解水平。对我们的任务进行全面研究表明：（1）最新的大型语言模型，包括GPT-4o、o1和Gemini 2.0表现出“灵光一闪”的现象，但在人类面前落后约40%；（2）大型语言模型中存在“随机鹦鹉”现象，它们在我们的网格任务中表现不佳，但在自然语言中却能够很好地描述和识别这些概念；（3）我们的任务由于内在的困难而非不熟悉的网格格式对大型语言模型构成了挑战，在同一格式的数据中进行上下文学习和微调并没有显著提高它们的性能。