LLM2D

摘要

arXiv:2502.00510v1 类型: 新论文摘要: 大型语言模型（LLM）代理框架通常采用模块化架构，结合规划、推理、行动执行和反思等组件来处理复杂任务。然而，量化每个模块对整体系统性能的贡献仍然是一个重大挑战，阻碍了优化和可解释性。为了解决这个问题，我们介绍了基于合作博弈论夏普利值的评估框架CapaBench（能力级评估基准），系统地衡量个体模块及其在代理架构中交互的边际影响。通过在所有可能的组合中替换默认模块为测试变体，CapaBench 提供了一种基本原则方法来归因性能贡献。主要贡献包括：(1) 我们首次提出了基于夏普利值的方法来量化 LLM 代理中的能力贡献；(2) 拥有高夏普利值的模块在组合时始终能够带来可预测的性能提升，从而实现有针对性的优化；(3) 我们构建了一个包含超过1,000个条目的多轮数据集，覆盖了多个领域和实际任务场景，以便对代理能力进行全面评估。CapaBench 桥接了组件级评估与整体系统评估之间的差距，为优化模块化 LLM 代理并促进其在复杂的真实场景中的部署提供了可操作的见解。