摘要
arXiv:2409.00696v3 评价类型: replace-cross
摘要: 基于评分的人类评估已成为准确评估大型语言模型(LLMs)出色表现的重要工具。然而,当前的评分系统面临一些重要限制:首先,它们未能考虑对评估结果有重大影响的偏差;其次,要获得准确的评分需要大量且昂贵的偏好数据集;再次,它们不便于不同任务之间有意义地比较模型评分。为解决这些问题,我们引入了Polyrating,这是一种基于最大后验估计的表达性和灵活性评分系统,能够以更低的成本进行更加细致和全面的模型性能分析。Polyrating 可以检测和量化影响人类偏好的偏差,确保公平的模型比较。此外,Polyrating 通过利用现有基准分数,可以将对新模型的人类评估成本降低最多 41%,对新任务则可降低最多 77%。最后,Polyrating 允许不同任务之间的直接评分比较,提供了对 LLM 强项、弱点及其在不同应用中的相对性能的全面理解。