LLM2D
谁是MVP? 一个针对LLM代理模块归因的游戏理论评估基准
Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents
作者: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.00510v2

摘要

arXiv:2502.00510v2 宣告类型: 替换 摘要:大型语言模型(LLM)代理框架通常采用模块化结构,整合计划、推理、动作执行和反思等组件,以应对复杂的任务。然而,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和可解释性。为了解决这一问题,我们引入了CapaBench(能力评估基准),该基准框架基于合作博弈论的Shapley值,系统地度量了模块及其交互对代理架构的影响。通过在所有可能的组合中替换默认模块为测试变体,CapaBench提供了一种归因方法。关键贡献包括:(1) 我们首次提出了基于Shapley值的方法来量化LLM代理中能力的贡献;(2) 具有高Shapley值的模块在组合时始终能带来可预测的性能提升,从而使优化更具针对性;(3) 我们构建了一个涵盖多个领域和实际任务场景的多轮数据集,包含了超过1,500个条目,这使得代理能力的全面评估成为可能。CapaBench弥合了组件级评估与整体系统评估之间的差距,为优化模块化LLM代理并推动其在复杂、实际场景中的部署提供了操作性见解。