摘要
AI评判系统旨在自动评估基于基础模型的软件(即FMware)。由于FMware固有的动态性和随机性,AI评判系统开发需要独特的工程生命周期,并带来新的挑战。本文基于我们在开发FMware AI评判系统的工业经验,讨论了这些挑战。这些挑战导致了大量的耗时、成本和不准确的判断。我们提出一个框架来应对这些挑战,目标是提高高质量AI评判系统开发的效率。最后,我们通过一个关于评判提交信息生成FMware的案例研究来评估我们的框架。使用我们框架开发的AI评判系统做出的判断准确率比未采用我们框架开发的AI评判系统高出6.2%,并且显著减少了开发工作量。