摘要
生成式人工智能(GAI)在提升软件工程生产力方面具有巨大潜力,但其不可信的输出,尤其是在代码合成方面,带来了重大挑战。对GAI生成物进行广泛验证和验证(V&V)的需求可能会削弱潜在的生产力提升。本文提出了一种通过利用GAI生成多个代码和测试版本的能力,促进版本间比较分析,从而缓解这些风险的方法。与依赖单一测试或代码模块的质量不同,这种“差异性GAI”(D-GAI)方法通过版本多样性促进了更可靠的质量评估。我们介绍了大规模软件观测站(LASSO),这是一个支持D-GAI的平台,通过执行和分析大量代码版本和测试集。我们讨论了LASSO如何实现对GAI生成物的严格评估,并提出了其在软件开发和GAI研究中的应用。