摘要
arXiv:2504.14119v1 说明类型: 新
摘要: 大型语言模型(LLMs)最近在代码相关任务中展示了强大的能力,但在代码理解和推理的稳健性方面仍然存在不足。本文我们提出 CodeCrash,这是一种统一的基准,用于评估LLMs在代码结构和文本干扰扰动下的稳健性,应用于两个已建立的基准——CRUXEval 和 LiveCodeBench,涵盖了输入和输出预测任务。我们使用直接推理和因果推理来评估17个LLMs,系统地分析它们的稳健性,确定性能下降的主要原因,并强调失效模式。我们的发现揭示了在结构噪声下的LLMs的脆弱性,以及它们对自然语言线索的固有依赖性,强调了LLMs在代码执行和理解方面的关键稳健性问题。此外,我们还考察了三个大型推理模型(LRMs),发现自我反省推理机制的严重脆弱性,导致推理崩溃。CodeCrash 提供了一种原则性的框架,用于在代码理解中压力测试LLMs,为未来的评估和基准测试提供了可行的方向。CodeCrash 的代码和稳健性排行榜可以在 https://donaldlamnl.github.io/CodeCrash/ 公开获取。