摘要
生成式人工智能 (GAI) 在提高软件工程生产力方面具有巨大潜力,但其不可靠的输出,尤其是在代码合成方面,带来了重大挑战。对 GAI 生成的工件进行广泛的验证和确认 (V&V) 可能会削弱潜在的生产力提升。本文提出了一种通过利用 GAI 生成多个版本的代码和测试来减轻这些风险的方法,从而促进版本间比较分析。这种“差分 GAI” (D-GAI) 方法不依赖于单个测试或代码模块的质量,而是通过版本多样性来促进更可靠的质量评估。我们介绍了大型软件天文台 (LASSO),这是一个支持 D-GAI 的平台,它可以执行和分析大量代码版本和测试集。我们讨论了 LASSO 如何实现对 GAI 生成的工件的严格评估,并提出了它在软件开发和 GAI 研究中的应用。