摘要
arXiv:2502.00510v1 类型: 新论文
摘要: 大型语言模型(LLM)代理框架通常采用模块化架构,结合规划、推理、行动执行和反思等组件来处理复杂任务。然而,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和可解释性。为了解决这个问题,我们介绍了基于合作博弈论夏普利值的评估框架CapaBench(能力级评估基准),系统地衡量个体模块及其在代理架构中交互的边际影响。通过在所有可能的组合中替换默认模块为测试变体,CapaBench 提供了一种基本原则方法来归因性能贡献。主要贡献包括:(1) 我们首次提出了基于夏普利值的方法来量化 LLM 代理中的能力贡献;(2) 拥有高夏普利值的模块在组合时始终能够带来可预测的性能提升,从而实现有针对性的优化;(3) 我们构建了一个包含超过1,000个条目的多轮数据集,覆盖了多个领域和实际任务场景,以便对代理能力进行全面评估。CapaBench 桥接了组件级评估与整体系统评估之间的差距,为优化模块化 LLM 代理并促进其在复杂的真实场景中的部署提供了可操作的见解。