LLM2D

摘要

arXiv:2504.14119v1 说明类型: 新摘要: 大型语言模型（LLMs）最近在代码相关任务中展示了强大的能力，但在代码理解和推理的稳健性方面仍然存在不足。本文我们提出 CodeCrash，这是一种统一的基准，用于评估LLMs在代码结构和文本干扰扰动下的稳健性，应用于两个已建立的基准——CRUXEval 和 LiveCodeBench，涵盖了输入和输出预测任务。我们使用直接推理和因果推理来评估17个LLMs，系统地分析它们的稳健性，确定性能下降的主要原因，并强调失效模式。我们的发现揭示了在结构噪声下的LLMs的脆弱性，以及它们对自然语言线索的固有依赖性，强调了LLMs在代码执行和理解方面的关键稳健性问题。此外，我们还考察了三个大型推理模型（LRMs），发现自我反省推理机制的严重脆弱性，导致推理崩溃。CodeCrash 提供了一种原则性的框架，用于在代码理解中压力测试LLMs，为未来的评估和基准测试提供了可行的方向。CodeCrash 的代码和稳健性排行榜可以在 https://donaldlamnl.github.io/CodeCrash/ 公开获取。