LLM2D

摘要

arXiv:2501.17178v2 评估类型：替换-交叉验证摘要：评估大规模语言模型（LLMs）通常需要昂贵的人工注释。为了解决这一问题，已经提出了基于LLM的裁判模型，这些模型能够比较两个LLM的输出，从而在不需要人工干预的情况下对模型进行排名。尽管提出现了一些方法，但在不同的论文中仍存在许多混淆因素。例如，模型、提示和其他超参数通常同时发生变化，这使得直接比较变得颇具挑战性。在本文中，我们提出了一种系统地分析和调整LLM裁判的超参数的方法。为了缓解评估裁判的高成本，我们提出了多目标多精度的方法，这使得在准确性和成本之间进行权衡成为可能，并且显著降低了搜索成本。我们的方法不仅能识别出在准确性和成本效率方面超越现有基准的裁判，还能利用公开权重模型，确保更高的可访问性和可重现性。