LLM2D
代码模拟作为大型语言模型中高级任务的代理
Code Simulation as a Proxy for High-order Tasks in Large Language Models
作者: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03568v1

摘要

arXiv:2502.03568v1 宣告类型: 交叉 摘要:许多推理、规划和问题解决任务具有内在的算法性质:正确地模拟每一步是能够正确解决它们的充分条件。我们收集了一组自然主义和合成推理任务,以评估大型语言模型(LLM)的能力。虽然自然主义任务往往需要精细的人工手工制作,但我们表明,在许多情况下,合成数据是一个很好的替代品,不仅更容易大规模收集。我们利用编程中的常见构造作为自然主义推理任务的基本构建块的对应物,例如简单的直线程序、包含关键路径的代码和近似且冗余的指令。我们还通过排序算法和嵌套循环,评估了LLM在排序问题和重复操作方面的能力。我们的合成数据集进一步揭示,尽管最强大的LLM展示了相对较强的操作能力,但这个过程是脆弱的:它受到记忆的影响并且似乎严重依赖于模式识别。我们的贡献在于基于合成方式测试LLM的推理能力,作为手工制作的人工标注问题的可扩展补充。