LLM2D

摘要

生成式人工智能（GAI）在提升软件工程生产力方面具有巨大潜力，但其不可信的输出，尤其是在代码合成方面，带来了重大挑战。对GAI生成物进行广泛验证和验证（V&V）的需求可能会削弱潜在的生产力提升。本文提出了一种通过利用GAI生成多个代码和测试版本的能力，促进版本间比较分析，从而缓解这些风险的方法。与依赖单一测试或代码模块的质量不同，这种“差异性GAI”（D-GAI）方法通过版本多样性促进了更可靠的质量评估。我们介绍了大规模软件观测站（LASSO），这是一个支持D-GAI的平台，通过执行和分析大量代码版本和测试集。我们讨论了LASSO如何实现对GAI生成物的严格评估，并提出了其在软件开发和GAI研究中的应用。