LLM2D

摘要

arXiv:2411.13768v2 宣传类型: 替换交叉摘要：大型语言模型（LLMs）使语言模型代理的出现成为可能：自主系统，能够在不具体编程或模型更改的情况下实现未明确指定的目标并适应部署后的更改。评估这些代理对于确保其性能和安全性至关重要，尤其是考虑到它们具有动态性、概率性和不断演化的特点。然而，传统的评估方法，如预定义的测试用例和标准的重新开发管道，难以应对语言模型代理评估的独特挑战。这些挑战包括捕捉开放的行为、处理新兴的结果以及在整个生命周期中使代理具有持续的适应能力。为了解决这些问题，我们提出了一种以评估为导向的开发方法，以借鉴测试驱动开发和行为驱动开发的理念，但重新设想用于语言模型代理的独特特征。通过对多声文献综述（MLR），我们综合了现有语言模型评估方法的局限性，并引入了一种针对语言模型代理评估驱动开发的新型过程模型和参考架构。我们的方法结合了运行时在线和重新开发离线的评估，实现了运行时的适应调整，并系统地迭代改进了管道、制品、系统架构和语言模型本身。通过连续将评估结果，包括来自人类和AI评估者的具体反馈，纳入开发和运营的每个阶段，该框架确保语言模型代理与不断变化的目标、用户需求和治理标准保持一致。