LLM2D
用于评估工具增强型大型语言模型作为对话式人工智能代理的自动化测试生成
Automated test generation to evaluate tool-augmented LLMs as conversational AI agents
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15934v1

摘要

工具增强型大型语言模型(LLM)是一种很有前途的方法,可以用来创建能够进行真实对话、遵循流程并调用适当功能的 AI 代理。然而,由于可能的对话的多样性,评估它们具有挑战性,现有的数据集只关注单个交互和函数调用。我们提出了一种测试生成管道来评估 LLM 作为对话式 AI 代理。我们的框架使用 LLM 生成以用户定义的流程为基础的多样化测试。为此,我们使用中间图来限制 LLM 测试生成器产生不以输入流程为基础的内容的倾向,并强制执行对可能对话的高覆盖率。此外,我们提出了 ALMITA,一个用于评估客户支持中 AI 代理的手动整理数据集,并用它来评估现有的 LLM。我们的结果表明,虽然工具增强型 LLM 在单个交互中表现良好,但它们往往难以处理完整的对话。虽然我们的重点是客户支持,但我们的方法是通用的,能够用于不同领域的 AI 代理。