LLM2D

摘要

AI评判系统旨在自动评估基于基础模型的软件（即FMware）。由于FMware固有的动态性和随机性，AI评判系统开发需要独特的工程生命周期，并带来新的挑战。本文基于我们在开发FMware AI评判系统的工业经验，讨论了这些挑战。这些挑战导致了大量的耗时、成本和不准确的判断。我们提出一个框架来应对这些挑战，目标是提高高质量AI评判系统开发的效率。最后，我们通过一个关于评判提交信息生成FMware的案例研究来评估我们的框架。使用我们框架开发的AI评判系统做出的判断准确率比未采用我们框架开发的AI评判系统高出6.2%，并且显著减少了开发工作量。