LLM2D

摘要

arXiv:2501.17178v2 宣告类型: replace-cross 摘要：评估大型语言模型（LLMs）通常需要昂贵的人工注释。为了解决这一问题，提出了基于LLM的裁判系统，这些系统比较了两个LLM的输出结果，使无需人工干预即可对模型进行排名。虽然已经提出了多种方法，但不同论文之间存在许多混淆因素。例如，模型、提示和其他超参数通常同时发生变化，使得一对一的比较变得具有挑战性。在本文中，我们提出了一种系统地分析和调整LLM裁判的超参数的方法。为了降低评估裁判的成本，我们提出利用多目标多保真度方法，这可以找到在准确性和成本之间权衡的裁判，同时显著降低搜索的成本。我们的方法不仅在准确性和成本效益方面超越了现有的基准测试，而且还使用开源权重模型，确保了更大的可访问性和可重现性。