LLM2D

摘要

生成式人工智能 (GAI) 在提高软件工程生产力方面具有巨大潜力，但其不可靠的输出，尤其是在代码合成方面，带来了重大挑战。对 GAI 生成的工件进行广泛的验证和确认 (V&V) 可能会削弱潜在的生产力提升。本文提出了一种通过利用 GAI 生成多个版本的代码和测试来减轻这些风险的方法，从而促进版本间比较分析。这种“差分 GAI” (D-GAI) 方法不依赖于单个测试或代码模块的质量，而是通过版本多样性来促进更可靠的质量评估。我们介绍了大型软件天文台 (LASSO)，这是一个支持 D-GAI 的平台，它可以执行和分析大量代码版本和测试集。我们讨论了 LASSO 如何实现对 GAI 生成的工件的严格评估，并提出了它在软件开发和 GAI 研究中的应用。