摘要
arXiv:2502.00510v2 宣告类型: 替换
摘要:大型语言模型(LLM)代理框架通常采用模块化结构,整合计划、推理、动作执行和反思等组件,以应对复杂的任务。然而,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和可解释性。为了解决这一问题,我们引入了CapaBench(能力评估基准),该基准框架基于合作博弈论的Shapley值,系统地度量了模块及其交互对代理架构的影响。通过在所有可能的组合中替换默认模块为测试变体,CapaBench提供了一种归因方法。关键贡献包括:(1) 我们首次提出了基于Shapley值的方法来量化LLM代理中能力的贡献;(2) 具有高Shapley值的模块在组合时始终能带来可预测的性能提升,从而使优化更具针对性;(3) 我们构建了一个涵盖多个领域和实际任务场景的多轮数据集,包含了超过1,500个条目,这使得代理能力的全面评估成为可能。CapaBench弥合了组件级评估与整体系统评估之间的差距,为优化模块化LLM代理并推动其在复杂、实际场景中的部署提供了操作性见解。