LLM2D

摘要

arXiv:2409.00696v3 评价类型: replace-cross 摘要: 基于评分的人类评估已成为准确评估大型语言模型（LLMs）出色表现的重要工具。然而，当前的评分系统面临一些重要限制：首先，它们未能考虑对评估结果有重大影响的偏差；其次，要获得准确的评分需要大量且昂贵的偏好数据集；再次，它们不便于不同任务之间有意义地比较模型评分。为解决这些问题，我们引入了Polyrating，这是一种基于最大后验估计的表达性和灵活性评分系统，能够以更低的成本进行更加细致和全面的模型性能分析。Polyrating 可以检测和量化影响人类偏好的偏差，确保公平的模型比较。此外，Polyrating 通过利用现有基准分数，可以将对新模型的人类评估成本降低最多 41%，对新任务则可降低最多 77%。最后，Polyrating 允许不同任务之间的直接评分比较，提供了对 LLM 强项、弱点及其在不同应用中的相对性能的全面理解。