摘要
arXiv:2502.03568v2 宣告类型: replace-cross
摘要: 许多逻辑推理、规划和问题解决任务固有地具有算法性质:准确模拟每一步是正确解决它们的充分条件。我们收集了自然场景和合成场景的逻辑推理任务,以评估大型语言模型(LLM)的能力。虽然自然场景任务通常需要仔细的手工制造,但我们展示了在许多情况下,合成数据是一个很好的代理,收集起来更简单且规模更大。我们利用编程中的常见结构作为自然场景推理任务构建块的对应物,如直线程序、包含关键路径的代码和近似冗余指令。我们进一步通过排序问题和嵌套循环中的排序算法来评估LLM的能力。我们的合成数据集还揭示了,尽管最强大的LLM表现出相对强大的执行能力,这一过程是脆弱的:它受到记忆的影响,并似乎高度依赖于模式识别。我们的贡献建立在通过合成测试来评估LLM的推理能力的基础上,作为手工制造的人工标注问题的可扩展补充。