摘要
arXiv:2504.19982v1 任务类型: cross
摘要: 任务导向对话(TOD)系统正经历由大型语言模型(LLMs)驱动的革命,然而这些系统的评估方法对于其日益复杂性仍显得不足。尽管传统的自动化评估指标有效评估了早期模块化系统,但它们仅关注对话层面,无法检测用户-代理交互过程中可能出现的关键中间错误。本文介绍了一种两步评估框架TD-EVAL(回合级和对话级评估),它将细粒度的回合级分析与全面的对话级比较统一起来。在回合级别上,我们评估每个响应的三个TOD特定维度:对话一致性、后端知识一致性以及政策合规性。同时,我们设计了TOD Agent Arena,使用成对比较提供对话级质量的度量。通过在MultiWOZ 2.4和τ-Bench上的实验,我们证明TD-EVAL能够有效地识别传统指标所遗漏的对话错误。此外,TD-EVAL在对话级质量评估方面与人类判断有更好的一致性,优于传统的和基于LLM的指标。这些发现表明,TD-EVAL引入了一种新的TOD系统评估范式,通过即插即用的框架高效评估回合级和系统级,为未来的研究提供了便利。