LLM2D
率、解释与引用 (REC): 大型语言模型在自动评估中增强的解释与归因
Rate, Explain and Cite (REC): Enhanced Explanation and Attribution in Automatic Evaluation by Large Language Models
作者: Aliyah R. Hsu, James Zhu, Zhichao Wang, Bin Bi, Shubham Mehrotra, Shiva K. Pentyala, Katherine Tan, Xiang-Bo Mao, Roshanak Omrani, Sougata Chaudhuri, Regunathan Radhakrishnan, Sitaram Asur, Claire Na Cheng, Bin Yu
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2411.02448v2

摘要

arXiv:2411.02448v2 宣布类型: 交叉替换 摘要: 大规模语言模型(LLMs)在生成连贯且高质量文本方面展现了令人印象深刻的技能,使其在多种文本生成任务中都具有很高的价值。然而,对生成内容的严格评估仍然是一个关键挑战,因为确保其质量依然受到诸如事实不准确和诡辩等持续问题的影响。本论文引入了三种通用的大规模语言模型自动评估器——REC-8B、REC-12B 和 REC-70B——专门用于从多个维度评估生成文本的质量:忠实性、指令遵循性、连贯性和完整性。这些模型不仅能为这些度量标准提供评分,还能提供详细的解释和可验证的引用,从而增强对内容的信任。此外,该模型支持多种引用模式,以满足不同对延迟和粒度的要求。针对多种基准的广泛评估表明,在通用语言模型自动评估器方面,我们的 REC-70B 在 RewardBench 领导板中排名第一,以模型名称 TextEval-Llama3.1-70B 的身份在 2025 年 2 月 15 日之前在生成模型类别中表现出色。在内容评估方面,它凭借更高质量的解释和引用,并具有最小的偏见。我们的 REC 数据集和模型可在 https://github.com/adelaidehsu/REC 获取。