摘要
arXiv:2411.01281v2 声明类型: replace-cross
摘要: 大多数现有的大语言模型(LLMs)输出质量评估基准方法依赖于将LLM响应与预定义的参考进行比较。这些基于静态数据集的方法随着LLM能力和应用场景的发展而迅速过时。在本项工作中,我们引入了VARCO Arena——一种新颖、成本效益高且 robust 的基准评估方法,它利用单淘汰赛机制来最小化所需的比较次数,同时消除了对静态参考或昂贵的人工标注的依赖。我们通过两个实验对这种方法进行了验证:(i) 一项模拟研究,探讨其在各种条件下的 robust 性,以及 (ii) 一项使用公开可用的基准提示进行的实际评估。在这两个实验中,VARCO Arena 始终优于当前的LLM基准评估实践,实现了与人类设定的Elo等级更强的相关性。我们的结果显示,VARCO Arena 不仅能产生可靠的LLM排名,还能提供一种可扩展且适应性强的解决方案,适用于多种定制化的定性评估用例。