LLM2D
谁是MVP?一种针对模块化归因的LLM代理游戏理论评价基准
Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents
作者: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00510v1

摘要

arXiv:2502.00510v1 类型: 新论文 摘要: 大型语言模型(LLM)代理框架通常采用模块化架构,结合规划、推理、行动执行和反思等组件来处理复杂任务。然而,量化每个模块对整体系统性能的贡献仍然是一个重大挑战,阻碍了优化和可解释性。为了解决这个问题,我们介绍了基于合作博弈论夏普利值的评估框架CapaBench(能力级评估基准),系统地衡量个体模块及其在代理架构中交互的边际影响。通过在所有可能的组合中替换默认模块为测试变体,CapaBench 提供了一种基本原则方法来归因性能贡献。主要贡献包括:(1) 我们首次提出了基于夏普利值的方法来量化 LLM 代理中的能力贡献;(2) 拥有高夏普利值的模块在组合时始终能够带来可预测的性能提升,从而实现有针对性的优化;(3) 我们构建了一个包含超过1,000个条目的多轮数据集,覆盖了多个领域和实际任务场景,以便对代理能力进行全面评估。CapaBench 桥接了组件级评估与整体系统评估之间的差距,为优化模块化 LLM 代理并促进其在复杂的真实场景中的部署提供了可操作的见解。