摘要
arXiv:2411.01281v3 宣告类型:替换-交叉
摘要:大多数现有的评估大语言模型(LLMs)输出质量的基准方法依赖于将LLM响应与预定义的参考进行比较。这类基于静态数据集的方法会随着LLM能力和应用场景的变化而迅速变得过时。在本工作中,我们引入了VARCO Arena——一种新颖、成本效益高且稳健的基准方法,该方法利用单淘汰锦标赛结构来减少所需的比较次数,同时消除对静态参考或昂贵的人工标注的需求。我们通过两个实验对其进行验证:(i)一项模拟研究,考察其在各种条件下的稳健性;(ii)一项使用公开可用的基准提示进行的经验评估。在两个实验中,VARCO Arena一致地优于当前的LLM基准方法,与人类设定的Elo排名具有更强的相关性。我们的结果表明,VARCO Arena不仅能够生成可靠的LLM排名,还能为各种定制化用例提供可扩展且适应性强的定性评估解决方案。