LLM2D
人工智能法官系统工程
Engineering AI Judge Systems
作者: Jiahuei Lin (Justina), Dayi Lin, Sky Zhang, Ahmed E. Hassan
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.17793v1

摘要

AI评判系统旨在自动评估基于基础模型的软件(即FMware)。由于FMware固有的动态性和随机性,AI评判系统开发需要独特的工程生命周期,并带来新的挑战。本文基于我们在开发FMware AI评判系统的工业经验,讨论了这些挑战。这些挑战导致了大量的耗时、成本和不准确的判断。我们提出一个框架来应对这些挑战,目标是提高高质量AI评判系统开发的效率。最后,我们通过一个关于评判提交信息生成FMware的案例研究来评估我们的框架。使用我们框架开发的AI评判系统做出的判断准确率比未采用我们框架开发的AI评判系统高出6.2%,并且显著减少了开发工作量。