摘要
arXiv:2411.14483v2 评估类型: 替换-跨领域
摘要: 选择哪种大型语言模型(LLM)是一个复杂的挑战。一对一组比较作为一种新的方法出现,用于评估LLM的人类偏好。这种方法涉及人类根据预定义的标准对模型输出进行评价。通过收集这些比较,可以使用如Elo等方法构建排名。然而,在LLM评估语境中应用这些算法时会遇到一些挑战。在本文中,我们探讨了排名系统在LLM一对一比较中的有效性。我们正式定义了一套有效的排名基本原则,并在LLM的上下文中对多种排名算法的鲁棒性进行了广泛评估。我们的分析揭示了影响排名准确性和效率的关键因素,为根据特定评估环境和资源限制选择最合适的方法提供了指导。