摘要
我们提出了一种针对对话代理的动态基准测试系统,该系统通过一次模拟的、长时间的用户$\leftrightarrow$代理交互来评估其性能。交互是用户和代理之间的对话,其中引入了多个任务,然后同时进行。我们定期切换上下文以交织任务,这构建了一个现实的测试场景,我们在其中评估代理的长期记忆、持续学习和信息整合能力。来自专有和开源大型语言模型的结果表明,大型语言模型通常在单任务交互中表现良好,但在任务交织时,它们在相同任务上的表现却很差。值得注意的是,补充了长期记忆系统的短上下文大型语言模型的性能与或优于具有更大上下文的模型。我们的基准测试表明,对于大型语言模型来说,在应对更自然交互时存在其他挑战,而现有的基准测试迄今为止无法捕捉到这些挑战。