LLM2D

摘要

arXiv:2503.23466v1 类型: cross 摘要：软件在我们的日常生活中被用于关键应用，并且保证其正确性非常重要。一种流行的方法是通过测试来评估软件的正确性。如果某个测试失败，这表明所测试的软件存在故障；如果所有测试都正确通过，那么可以假定该软件是正确的。然而，这些结果的可靠性取决于所考虑的测试集，存在误报的风险（即通过所有可用测试但仍然包含错误的软件，因为有些情况未被测试）。因此，在评估软件时考虑引入错误的测试案例是重要的。为了支持数据驱动创建这样一种测试集，尤其对于从大型语言模型合成的软件测试特别感兴趣，我们收集了一个包含编程问题及其对应引入错误的测试案例（即“技巧”）的数据集（Codehacks）。该数据集来自野外，特别是从Codeforces在线裁判平台收集。该数据集包含288,617个技巧，针对5,578个编程问题，每个问题都有自然语言描述，以及2,196个提交的解决方案的源代码，这些解决方案可以通过其对应的技巧被破解。关键词：竞技编程，语言模型，数据集