摘要
arXiv:2504.05500v2 更新类型: 替换
摘要:大型语言模型(LLMs)的迅猛发展已经超越了传统的评估方法。静态基准无法捕捉到LLM能力的深度和广度,并最终变得过时,而大多数动态方法要么过于依赖基于LLM的评估,要么仍然受到预定义测试集的限制。我们引入了Prism,一个灵活的动态基准测试框架,旨在进行全面的LLM评估。Prism基于三个关键组成部分构建:(1)一种基于树的状态表示方式,将评估建模为马尔可夫决策过程,(2)一种适应性的蒙特卡洛树搜索算法,用于揭示具有挑战性的评估场景,以及(3)一个多代理评估流水线,能够同时评估多种能力。为了确保稳健的评估,Prism将树探索模式的结构测量与不同难度等级的性能指标结合起来,提供了详细的错误模式诊断、测试覆盖率和解决方案方法分析。通过对五种最先进的LLM的广泛实验,我们分析了模型架构和规模如何影响在不同任务难度下生成代码的表现。我们的结果表明,Prism作为一个随着模型进步而演进的动态基准,不仅有效,还能提供更深入地了解模型的局限性。