LLM2D

摘要

arXiv:2503.22458v1 交叉公告类型：cross 摘要：本文回顾了基于大型语言模型（LLM）的代理在多轮对话场景中的评估方法。利用受PRISMA启发的框架，我们系统地回顾了近250篇学术文献，涵盖了各种出版平台的前沿成果，并为我们的分析奠定了坚实的基础。我们的研究提供了一种结构化的分析方法，通过开发两个相关的分类系统：一个定义了“要评估什么”，另一个解释了“如何评估”。第一个分类系统识别了基于LLM的代理在多轮对话中的关键组件及其评估维度，包括任务完成情况、响应质量、用户体验、记忆和上下文保留，以及规划和工具集成。这些组件确保了对话代理的性能被全面且有意义地评估。第二个分类系统侧重于评估方法。它将方法分类为基于注释的评估、自动化指标、结合人类评估与定量测量的混合策略，以及利用LLM进行自我评判的方法。该框架不仅捕捉了传统来自语言理解领域的指标，如BLEU和ROUGE得分，还整合了反映多轮对话动态和交互性质的高级技术。