摘要
arXiv:2501.17178v2 宣告类型: replace-cross
摘要:评估大型语言模型(LLMs)通常需要昂贵的人工注释。为了解决这一问题,提出了基于LLM的裁判系统,这些系统比较了两个LLM的输出结果,使无需人工干预即可对模型进行排名。虽然已经提出了多种方法,但不同论文之间存在许多混淆因素。例如,模型、提示和其他超参数通常同时发生变化,使得一对一的比较变得具有挑战性。在本文中,我们提出了一种系统地分析和调整LLM裁判的超参数的方法。为了降低评估裁判的成本,我们提出利用多目标多保真度方法,这可以找到在准确性和成本之间权衡的裁判,同时显著降低搜索的成本。我们的方法不仅在准确性和成本效益方面超越了现有的基准测试,而且还使用开源权重模型,确保了更大的可访问性和可重现性。