LLM2D

摘要

arXiv:2502.03568v2 宣告类型: replace-cross 摘要: 许多逻辑推理、规划和问题解决任务固有地具有算法性质：准确模拟每一步是正确解决它们的充分条件。我们收集了自然场景和合成场景的逻辑推理任务，以评估大型语言模型（LLM）的能力。虽然自然场景任务通常需要仔细的手工制造，但我们展示了在许多情况下，合成数据是一个很好的代理，收集起来更简单且规模更大。我们利用编程中的常见结构作为自然场景推理任务构建块的对应物，如直线程序、包含关键路径的代码和近似冗余指令。我们进一步通过排序问题和嵌套循环中的排序算法来评估LLM的能力。我们的合成数据集还揭示了，尽管最强大的LLM表现出相对强大的执行能力，这一过程是脆弱的：它受到记忆的影响，并似乎高度依赖于模式识别。我们的贡献建立在通过合成测试来评估LLM的推理能力的基础上，作为手工制造的人工标注问题的可扩展补充。