LLM2D

摘要

arXiv:2501.00560v2 通知类型: 替换-交叉摘要：评估和排名不同大型语言模型（LLM）的能力对于理解其性能和与人类偏好的一致性至关重要。由于人工评估代价高昂且耗时，因此自动LLM测评框架（即旨在基于人类偏好对LLM进行排名的自动评估框架）是必不可少的。一个自动LLM测评框架由四个组成部分组成：输入集（例如，用户指令）、评估模型（例如，LLM）、评估类型（例如，成对比较）和聚合方法（例如，ELO评分系统）。然而，之前的工作并没有充分探索如何选择这些组成部分，或者它们的不同组合如何影响结果。在本工作中，通过控制实验，我们提供了一系列关于如何选择每个组成部分以更好地自动化LLM评估的建议。此外，我们发现，在评估具有相似性能的LLM时，自动LLM测评框架的表现急剧下降，这突显了当前测评框架的局限性，并呼吁未来的研究方向。最后，我们发现，评估模型在实例级的表现（例如，选择最佳输出的准确性）并不总是与其作为测评框架组成部分时的有效性相一致，强调了专门针对测评框架进行系统级评估的重要性。