LLM2D

摘要

arXiv:2502.00510v2 宣告类型: 替换摘要：大型语言模型（LLM）代理框架通常采用模块化结构，整合计划、推理、动作执行和反思等组件，以应对复杂的任务。然而，量化每个模块对整体系统性能的贡献仍然是一个重大挑战，阻碍了优化和可解释性。为了解决这一问题，我们引入了CapaBench（能力评估基准），该基准框架基于合作博弈论的Shapley值，系统地度量了模块及其交互对代理架构的影响。通过在所有可能的组合中替换默认模块为测试变体，CapaBench提供了一种归因方法。关键贡献包括：(1) 我们首次提出了基于Shapley值的方法来量化LLM代理中能力的贡献；(2) 具有高Shapley值的模块在组合时始终能带来可预测的性能提升，从而使优化更具针对性；(3) 我们构建了一个涵盖多个领域和实际任务场景的多轮数据集，包含了超过1,500个条目，这使得代理能力的全面评估成为可能。CapaBench弥合了组件级评估与整体系统评估之间的差距，为优化模块化LLM代理并推动其在复杂、实际场景中的部署提供了操作性见解。