LLM2D
代码漏洞:来自Codeforces的 Competitive Programming问题对抗测试数据集
Codehacks: A Dataset of Adversarial Tests for Competitive Programming Problems Obtained from Codeforces
作者: Max Hort, Leon Moonen
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23466v1

摘要

arXiv:2503.23466v1 类型: cross 摘要:软件在我们的日常生活中被用于关键应用,并且保证其正确性非常重要。一种流行的方法是通过测试来评估软件的正确性。如果某个测试失败,这表明所测试的软件存在故障;如果所有测试都正确通过,那么可以假定该软件是正确的。然而,这些结果的可靠性取决于所考虑的测试集,存在误报的风险(即通过所有可用测试但仍然包含错误的软件,因为有些情况未被测试)。因此,在评估软件时考虑引入错误的测试案例是重要的。 为了支持数据驱动创建这样一种测试集,尤其对于从大型语言模型合成的软件测试特别感兴趣,我们收集了一个包含编程问题及其对应引入错误的测试案例(即“技巧”)的数据集(Codehacks)。该数据集来自野外,特别是从Codeforces在线裁判平台收集。该数据集包含288,617个技巧,针对5,578个编程问题,每个问题都有自然语言描述,以及2,196个提交的解决方案的源代码,这些解决方案可以通过其对应的技巧被破解。 关键词:竞技编程,语言模型,数据集