LLM2D

摘要

工具增强型大型语言模型（LLM）是一种很有前途的方法，可以用来创建能够进行真实对话、遵循流程并调用适当功能的 AI 代理。然而，由于可能的对话的多样性，评估它们具有挑战性，现有的数据集只关注单个交互和函数调用。我们提出了一种测试生成管道来评估 LLM 作为对话式 AI 代理。我们的框架使用 LLM 生成以用户定义的流程为基础的多样化测试。为此，我们使用中间图来限制 LLM 测试生成器产生不以输入流程为基础的内容的倾向，并强制执行对可能对话的高覆盖率。此外，我们提出了 ALMITA，一个用于评估客户支持中 AI 代理的手动整理数据集，并用它来评估现有的 LLM。我们的结果表明，虽然工具增强型 LLM 在单个交互中表现良好，但它们往往难以处理完整的对话。虽然我们的重点是客户支持，但我们的方法是通用的，能够用于不同领域的 AI 代理。