LLM2D

摘要

arXiv:2502.03568v1 宣告类型: 交叉摘要：许多推理、规划和问题解决任务具有内在的算法性质：正确地模拟每一步是能够正确解决它们的充分条件。我们收集了一组自然主义和合成推理任务，以评估大型语言模型（LLM）的能力。虽然自然主义任务往往需要精细的人工手工制作，但我们表明，在许多情况下，合成数据是一个很好的替代品，不仅更容易大规模收集。我们利用编程中的常见构造作为自然主义推理任务的基本构建块的对应物，例如简单的直线程序、包含关键路径的代码和近似且冗余的指令。我们还通过排序算法和嵌套循环，评估了LLM在排序问题和重复操作方面的能力。我们的合成数据集进一步揭示，尽管最强大的LLM展示了相对较强的操作能力，但这个过程是脆弱的：它受到记忆的影响并且似乎严重依赖于模式识别。我们的贡献在于基于合成方式测试LLM的推理能力，作为手工制作的人工标注问题的可扩展补充。