摘要
工具增强的 LLMs 是一种很有前景的方法,可以创建能够进行现实对话、遵循程序并调用适当功能的 AI 代理。然而,由于可能的对话的多样性,评估它们具有挑战性,现有数据集只关注单次交互和函数调用。我们提出了一个测试生成管道来评估 LLMs 作为对话式 AI 代理。我们的框架使用 LLMs 来生成基于用户定义程序的多样化测试。为此,我们使用中间图来限制 LLM 测试生成器产生不基于输入程序的内容的倾向,并强制执行对可能对话的高覆盖率。此外,我们提出了 ALMITA,一个手动策划的数据集,用于评估客户支持中的 AI 代理,并用它来评估现有的 LLMs。我们的结果表明,虽然工具增强的 LLMs 在单次交互中表现良好,但它们往往难以处理完整的对话。虽然我们关注的是客户支持,但我们的方法是通用的,能够用于不同领域的 AI 代理。