LLM2D
Varco球馆:一种参考无损的大语言模型基准测评方法
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models
作者: Seonil Son, Ju-Min Oh, Heegon Jin, Cheolhun Jang, Jeongbeom Jeong, Kuntae Kim
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2411.01281v2

摘要

arXiv:2411.01281v2 声明类型: replace-cross 摘要: 大多数现有的大语言模型(LLMs)输出质量评估基准方法依赖于将LLM响应与预定义的参考进行比较。这些基于静态数据集的方法随着LLM能力和应用场景的发展而迅速过时。在本项工作中,我们引入了VARCO Arena——一种新颖、成本效益高且 robust 的基准评估方法,它利用单淘汰赛机制来最小化所需的比较次数,同时消除了对静态参考或昂贵的人工标注的依赖。我们通过两个实验对这种方法进行了验证:(i) 一项模拟研究,探讨其在各种条件下的 robust 性,以及 (ii) 一项使用公开可用的基准提示进行的实际评估。在这两个实验中,VARCO Arena 始终优于当前的LLM基准评估实践,实现了与人类设定的Elo等级更强的相关性。我们的结果显示,VARCO Arena 不仅能产生可靠的LLM排名,还能提供一种可扩展且适应性强的解决方案,适用于多种定制化的定性评估用例。