LLM2D

摘要

arXiv:2504.16472v2 公告类型: replace-cross 摘要: 尽管在自动软件测试方面进行了数十年的研究和实践，但仍有一些基本概念定义不明确且探索不足，但却具有巨大的实际影响潜力。我们展示了这些概念在软件测试生成的背景下为大语言模型带来了新的挑战。具体而言，我们正式定义并研究了强化测试和捕获测试的性质。强化测试是指旨在防止将来回归的测试，而捕获测试是指捕获这种回归或由代码更改引入的新功能中的故障。强化测试可以在任何时候生成，并且当将来的回归被捕获时，可能会变成捕获测试。我们还定义并阐明了捕获“及时”（Just-in-Time, JiT）挑战，其中包括在新故障进入生产之前生成测试。我们证明，任何解决捕获JiT测试生成问题的方案也可以重新用于捕获遗留代码中的潜在故障。我们列出了强化测试、捕获测试和JiT测试的各种可能结果，并讨论了开放的研究问题、部署选项以及我们在Meta基于自动大语言模型的强化方面的初始结果。这篇文章是为了配合作者在2025年ACM国际软件工程基础会议（FSE）上的主旨演讲而撰写的。作者按字母顺序排列，对应的作者是Mark Harman。