LLM2D

摘要

arXiv:2411.02448v2 宣布类型: 交叉替换摘要: 大规模语言模型(LLMs)在生成连贯且高质量文本方面展现了令人印象深刻的技能，使其在多种文本生成任务中都具有很高的价值。然而，对生成内容的严格评估仍然是一个关键挑战，因为确保其质量依然受到诸如事实不准确和诡辩等持续问题的影响。本论文引入了三种通用的大规模语言模型自动评估器——REC-8B、REC-12B 和 REC-70B——专门用于从多个维度评估生成文本的质量：忠实性、指令遵循性、连贯性和完整性。这些模型不仅能为这些度量标准提供评分，还能提供详细的解释和可验证的引用，从而增强对内容的信任。此外，该模型支持多种引用模式，以满足不同对延迟和粒度的要求。针对多种基准的广泛评估表明，在通用语言模型自动评估器方面，我们的 REC-70B 在 RewardBench 领导板中排名第一，以模型名称 TextEval-Llama3.1-70B 的身份在 2025 年 2 月 15 日之前在生成模型类别中表现出色。在内容评估方面，它凭借更高质量的解释和引用，并具有最小的偏见。我们的 REC 数据集和模型可在 https://github.com/adelaidehsu/REC 获取。