LLM2D

摘要

arXiv:2504.16472v1 宣布类型: cross 摘要：尽管在自动化软件测试方面进行了几十年的研究与实践，仍有许多基本概念界定不明确且未得到充分探索，但这些概念却具有巨大的实际影响潜力。我们展示了这些概念在大型语言模型用于软件测试生成的背景下提出了令人兴奋的新挑战。更具体而言，我们正式定义并研究了加固测试和捕获测试的属性。加固测试是一种旨在防止未来回归的测试，而捕获测试是一种能在新功能引入的代码更改中捕获此类回归或故障的测试。加固测试可以在任何时间生成，且当未来的回归被捕获时，它可能成为捕获测试。我们还定义并阐述了捕获“即时”（Just-in-Time, JiT）挑战，其中测试在捕获新故障之前即时生成。我们展示了任何解决捕获JiT测试生成问题的方法也可以重新用于捕获遗留代码中的潜在故障。我们列出了加固测试、捕获测试和JiT测试可能的结果，并讨论了开放的研究问题、部署选项以及我们在Meta上自动化的LLM加固工作初步结果。该论文\footnote{作者顺序按字母排列。对应作者是Mark Harman。}撰写的目的是与作者在ACM国际软件工程会议（FSE）2025的主旨演讲相伴随。