LLM2D
基于LLM的代理在多轮对话中的评估:一项综述
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey
作者: Shengyue Guan, Haoyi Xiong, Jindong Wang, Jiang Bian, Bin Zhu, Jian-guang Lou
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22458v1

摘要

arXiv:2503.22458v1 交叉公告类型:cross 摘要:本文回顾了基于大型语言模型(LLM)的代理在多轮对话场景中的评估方法。利用受PRISMA启发的框架,我们系统地回顾了近250篇学术文献,涵盖了各种出版平台的前沿成果,并为我们的分析奠定了坚实的基础。我们的研究提供了一种结构化的分析方法,通过开发两个相关的分类系统:一个定义了“要评估什么”,另一个解释了“如何评估”。第一个分类系统识别了基于LLM的代理在多轮对话中的关键组件及其评估维度,包括任务完成情况、响应质量、用户体验、记忆和上下文保留,以及规划和工具集成。这些组件确保了对话代理的性能被全面且有意义地评估。第二个分类系统侧重于评估方法。它将方法分类为基于注释的评估、自动化指标、结合人类评估与定量测量的混合策略,以及利用LLM进行自我评判的方法。该框架不仅捕捉了传统来自语言理解领域的指标,如BLEU和ROUGE得分,还整合了反映多轮对话动态和交互性质的高级技术。