LLM2D
用于评估工具增强型大型语言模型作为对话式人工智能代理的自动化测试生成
Automated test generation to evaluate tool-augmented LLMs as conversational AI agents
作者: Samuel Arcadinho, David Aparicio, Mariana Almeida
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2409.15934v2

摘要

工具增强的 LLMs 是一种很有前景的方法,可以创建能够进行现实对话、遵循程序并调用适当功能的 AI 代理。然而,由于可能的对话的多样性,评估它们具有挑战性,现有数据集只关注单次交互和函数调用。我们提出了一个测试生成管道来评估 LLMs 作为对话式 AI 代理。我们的框架使用 LLMs 来生成基于用户定义程序的多样化测试。为此,我们使用中间图来限制 LLM 测试生成器产生不基于输入程序的内容的倾向,并强制执行对可能对话的高覆盖率。此外,我们提出了 ALMITA,一个手动策划的数据集,用于评估客户支持中的 AI 代理,并用它来评估现有的 LLMs。我们的结果表明,虽然工具增强的 LLMs 在单次交互中表现良好,但它们往往难以处理完整的对话。虽然我们关注的是客户支持,但我们的方法是通用的,能够用于不同领域的 AI 代理。