摘要
arXiv:2501.00560v2 通知类型: 替换-交叉
摘要:评估和排名不同大型语言模型(LLM)的能力对于理解其性能和与人类偏好的一致性至关重要。由于人工评估代价高昂且耗时,因此自动LLM测评框架(即旨在基于人类偏好对LLM进行排名的自动评估框架)是必不可少的。一个自动LLM测评框架由四个组成部分组成:输入集(例如,用户指令)、评估模型(例如,LLM)、评估类型(例如,成对比较)和聚合方法(例如,ELO评分系统)。然而,之前的工作并没有充分探索如何选择这些组成部分,或者它们的不同组合如何影响结果。在本工作中,通过控制实验,我们提供了一系列关于如何选择每个组成部分以更好地自动化LLM评估的建议。此外,我们发现,在评估具有相似性能的LLM时,自动LLM测评框架的表现急剧下降,这突显了当前测评框架的局限性,并呼吁未来的研究方向。最后,我们发现,评估模型在实例级的表现(例如,选择最佳输出的准确性)并不总是与其作为测评框架组成部分时的有效性相一致,强调了专门针对测评框架进行系统级评估的重要性。