LLM2D

摘要

arXiv:2412.15524v2类型：替换交叉摘要：评估大型语言模型（LLMs）在遵循指令方面的能力，很大程度上依赖于一个强大的LLM作为评判者，这引入了未解决的偏差，使得评判结果偏离了人类评判者的标准。在本工作中，我们重新评估了自动评估方法在广泛范围内的指令遵循任务中的表现。我们尝试了利用人类撰写的回应的方法，并观察到这些方法在广泛范围的任务中增强了自动评估的可靠性，最终在与人类评判者的一致性方面提高了高达3.2%。我们还发现，人类撰写的回应为指令遵循提供了与模型生成的回应不同的视角，并且在比较模型回应时应将其作为额外的上下文使用。基于这些观察，我们开发了一个新的评估基准——指导性人类回应评估指令遵循(HREF)，该基准包含4,258个样本，分布在11个任务类别中，使用综合评估设置选择每个类别中最可靠的方法。除了提供可靠的评估外，HREF 强调个体任务表现，并且不受污染。最后，我们研究了HREF中关键设计选择的影响，包括评估集的大小、评判模型、基线模型和提示模板。我们提供了一个实时排行榜，在HREF的私人评估集上评估LLMs的表现。