LLM2D

摘要

工具增强的 LLMs 是一种很有前景的方法，可以创建能够进行现实对话、遵循程序并调用适当功能的 AI 代理。然而，由于可能的对话的多样性，评估它们具有挑战性，现有数据集只关注单次交互和函数调用。我们提出了一个测试生成管道来评估 LLMs 作为对话式 AI 代理。我们的框架使用 LLMs 来生成基于用户定义程序的多样化测试。为此，我们使用中间图来限制 LLM 测试生成器产生不基于输入程序的内容的倾向，并强制执行对可能对话的高覆盖率。此外，我们提出了 ALMITA，一个手动策划的数据集，用于评估客户支持中的 AI 代理，并用它来评估现有的 LLMs。我们的结果表明，虽然工具增强的 LLMs 在单次交互中表现良好，但它们往往难以处理完整的对话。虽然我们关注的是客户支持，但我们的方法是通用的，能够用于不同领域的 AI 代理。