摘要
arXiv:2505.08638v1 宣布类型: 新
摘要: 随着剂型工作流在各种领域的广泛应用,迫切需要能够大规模和系统性地评估这些系统生成的复杂轨迹。当前的评估方法依赖于对长时间工作流轨迹进行手动的、领域特定的人类分析——这种方法无法应对剂型输出日益增长的复杂性和数量。在这些环境中,外部工具输出与语言模型推理之间的相互作用使得错误分析比传统的软件调试更加复杂。在本文中,我们(1)阐述了为剂型工作流轨迹开发稳健且动态的评估方法的需求,(2)引入了一种正式的剂型系统中遇到的错误类型的分类体系,以及(3)提出了一个基于现有剂型基准构建的由这些分类体系指导的148个人标注的轨迹集合(TRAIL)。为了确保生态效度,我们从单个和多代理系统中收集轨迹,重点关注如软件工程和开放世界信息检索等实际应用领域。我们的评估结果显示,现代的长上下文语言模型在轨迹调试方面表现较差,最佳的Gemini-2.5-pro模型在TRAIL上的得分仅为11%。我们的数据集和代码已公开发布,以支持并加速未来在可扩展评估方面的研究。