摘要
现有的摘要质量评估基准往往缺乏多样的输入场景,只关注狭义定义的维度(例如,忠实度),并且难以应对主观和粗粒度的标注方案。为了解决这些缺陷,我们创建了 UniSumEval 基准,它扩展了输入上下文的范围(例如,领域、长度)并提供细粒度、多维度的标注。我们在数据创建中利用了 AI 辅助,识别潜在的幻觉输入文本,并帮助人类标注者降低细粒度标注任务的难度。利用 UniSumEval,我们对九种最新的语言模型进行了基准测试,以了解它们在不同输入上下文和评估维度上的表现。此外,我们对 SOTA 自动摘要评估器进行了全面比较。我们的基准数据将在 https://github.com/DISL-Lab/UniSumEval-v1.0 上公开。