摘要
arXiv:2505.01592v1 区域:交叉
摘要:大型语言模型(LLMs)在指令执行和上下文理解方面的日益增强的能力,引领了一个拥有众多应用的智能代理时代。在这之中,具有复杂内部管道的任务规划代理,在涉及复杂内部流程的真实场景中尤为引人注目,如上下文理解、工具管理和响应生成。然而,现有的基准测试主要通过任务完成来评估代理的有效性,这作为整体效果的代理。我们假设仅仅提高任务完成率并不能最大化用户满意度,因为用户与整个代理过程交互,而不仅仅是最终结果。为解决这一差距,我们提出了PIPA,一种统一的评价协议,将交互式任务规划代理的的行为过程构想在一个部分可观测马尔可夫决策过程(POMDP)的范式中。所提出的协议通过一组原子评价标准提供了对代理性能的全面评估,允许研究人员和实践者诊断代理决策管道中的特定优势和劣势。我们的分析表明,代理在不同的行为阶段表现出色,用户满意度既受结果也受中介行为的影响。我们还指出了未来的研究方向,包括利用多个代理的系统以及用户模拟器在任务规划中的局限性。