LLM2D

摘要

arXiv:2504.19982v1 任务类型: cross 摘要: 任务导向对话(TOD)系统正经历由大型语言模型(LLMs)驱动的革命，然而这些系统的评估方法对于其日益复杂性仍显得不足。尽管传统的自动化评估指标有效评估了早期模块化系统，但它们仅关注对话层面，无法检测用户-代理交互过程中可能出现的关键中间错误。本文介绍了一种两步评估框架TD-EVAL(回合级和对话级评估)，它将细粒度的回合级分析与全面的对话级比较统一起来。在回合级别上，我们评估每个响应的三个TOD特定维度：对话一致性、后端知识一致性以及政策合规性。同时，我们设计了TOD Agent Arena，使用成对比较提供对话级质量的度量。通过在MultiWOZ 2.4和τ-Bench上的实验，我们证明TD-EVAL能够有效地识别传统指标所遗漏的对话错误。此外，TD-EVAL在对话级质量评估方面与人类判断有更好的一致性，优于传统的和基于LLM的指标。这些发现表明，TD-EVAL引入了一种新的TOD系统评估范式，通过即插即用的框架高效评估回合级和系统级，为未来的研究提供了便利。