LLM2D

摘要

arXiv:2504.05500v1 类型: 新闻摘要：大语言模型（LLMs）的快速发展已经超越了传统的评估方法。静态基准无法捕捉LLM的能力深度和广度，最终变得过时，而大多数动态方法要么过于依赖基于LLM的评估，要么仍然受到预定义测试集的制约。我们介绍了一种名为Prism的灵活、动态的基准测试框架，旨在进行全面的LLM评估。Prism基于三个关键组件构建：（1）基于树的状态表示，将评估建模为马尔可夫决策过程，（2）适应用于揭露复杂评估场景的蒙特卡洛树搜索算法，以及（3）多智能体评估流水线，使其能够同时评估多种能力。为了确保稳健的评估，Prism结合了树探索模式的结构测量与不同难度水平的性能指标，提供详细的错误模式、测试覆盖范围和解决方案的诊断信息。通过在五个最新一代LLM上的广泛实验，我们分析了模型架构和规模如何影响不同任务难度下的代码生成性能。我们的结果展示了Prism作为与模型进步同步的动态基准的效用，同时还提供了对它们局限性的更深入洞察。