LLM2D

摘要

arXiv:2411.01281v3 宣告类型：替换-交叉摘要：大多数现有的评估大语言模型（LLMs）输出质量的基准方法依赖于将LLM响应与预定义的参考进行比较。这类基于静态数据集的方法会随着LLM能力和应用场景的变化而迅速变得过时。在本工作中，我们引入了VARCO Arena——一种新颖、成本效益高且稳健的基准方法，该方法利用单淘汰锦标赛结构来减少所需的比较次数，同时消除对静态参考或昂贵的人工标注的需求。我们通过两个实验对其进行验证：（i）一项模拟研究，考察其在各种条件下的稳健性；（ii）一项使用公开可用的基准提示进行的经验评估。在两个实验中，VARCO Arena一致地优于当前的LLM基准方法，与人类设定的Elo排名具有更强的相关性。我们的结果表明，VARCO Arena不仅能够生成可靠的LLM排名，还能为各种定制化用例提供可扩展且适应性强的定性评估解决方案。