LLM2D
代码模拟作为大型语言模型中高级任务的代理
Code Simulation as a Proxy for High-order Tasks in Large Language Models
作者: Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, X. Angelo Huang, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.03568v2

摘要

arXiv:2502.03568v2 宣告类型: replace-cross 摘要: 许多逻辑推理、规划和问题解决任务固有地具有算法性质:准确模拟每一步是正确解决它们的充分条件。我们收集了自然场景和合成场景的逻辑推理任务,以评估大型语言模型(LLM)的能力。虽然自然场景任务通常需要仔细的手工制造,但我们展示了在许多情况下,合成数据是一个很好的代理,收集起来更简单且规模更大。我们利用编程中的常见结构作为自然场景推理任务构建块的对应物,如直线程序、包含关键路径的代码和近似冗余指令。我们进一步通过排序问题和嵌套循环中的排序算法来评估LLM的能力。我们的合成数据集还揭示了,尽管最强大的LLM表现出相对强大的执行能力,这一过程是脆弱的:它受到记忆的影响,并似乎高度依赖于模式识别。我们的贡献建立在通过合成测试来评估LLM的推理能力的基础上,作为手工制造的人工标注问题的可扩展补充。