LLM2D

摘要

arXiv:2411.01281v2 声明类型: replace-cross 摘要: 大多数现有的大语言模型（LLMs）输出质量评估基准方法依赖于将LLM响应与预定义的参考进行比较。这些基于静态数据集的方法随着LLM能力和应用场景的发展而迅速过时。在本项工作中，我们引入了VARCO Arena——一种新颖、成本效益高且 robust 的基准评估方法，它利用单淘汰赛机制来最小化所需的比较次数，同时消除了对静态参考或昂贵的人工标注的依赖。我们通过两个实验对这种方法进行了验证：(i) 一项模拟研究，探讨其在各种条件下的 robust 性，以及 (ii) 一项使用公开可用的基准提示进行的实际评估。在这两个实验中，VARCO Arena 始终优于当前的LLM基准评估实践，实现了与人类设定的Elo等级更强的相关性。我们的结果显示，VARCO Arena 不仅能产生可靠的LLM排名，还能提供一种可扩展且适应性强的解决方案，适用于多种定制化的定性评估用例。