摘要
arXiv:2411.02448v2 宣布类型: 交叉替换
摘要: 大规模语言模型(LLMs)在生成连贯且高质量文本方面展现了令人印象深刻的技能,使其在多种文本生成任务中都具有很高的价值。然而,对生成内容的严格评估仍然是一个关键挑战,因为确保其质量依然受到诸如事实不准确和诡辩等持续问题的影响。本论文引入了三种通用的大规模语言模型自动评估器——REC-8B、REC-12B 和 REC-70B——专门用于从多个维度评估生成文本的质量:忠实性、指令遵循性、连贯性和完整性。这些模型不仅能为这些度量标准提供评分,还能提供详细的解释和可验证的引用,从而增强对内容的信任。此外,该模型支持多种引用模式,以满足不同对延迟和粒度的要求。针对多种基准的广泛评估表明,在通用语言模型自动评估器方面,我们的 REC-70B 在 RewardBench 领导板中排名第一,以模型名称 TextEval-Llama3.1-70B 的身份在 2025 年 2 月 15 日之前在生成模型类别中表现出色。在内容评估方面,它凭借更高质量的解释和引用,并具有最小的偏见。我们的 REC 数据集和模型可在 https://github.com/adelaidehsu/REC 获取。