摘要
选择哪个大型语言模型 (LLM) 是一项复杂的问题。成对排序已成为评估人类对大型语言模型偏好的一种新方法。这种方法需要人类根据预定义的标准评估模型输出对。通过收集这些比较,可以使用 Elo 等方法构建排名。然而,在大型语言模型评估的背景下应用这些算法会带来一些挑战。在本文中,我们探讨了用于大型语言模型成对比较的排序系统的有效性。我们正式定义了一套有效排序的基本原则,并对几种排序算法在大型语言模型环境下的稳健性进行了广泛的评估。我们的分析揭示了影响排序准确性和效率的关键因素,为根据具体的评估环境和资源限制选择最合适的方法提供了指导。