摘要
现有的摘要质量评估基准往往缺乏多样化的输入场景,只关注狭义定义的维度(例如,忠实度),并且难以处理主观和粗粒度的标注方案。为了解决这些缺点,我们创建了 UniSumEval 基准,它扩展了输入上下文的范围(例如,领域、长度)并提供了细粒度、多维度的标注。我们在数据创建中使用 AI 辅助,识别潜在的幻觉输入文本,并帮助人类标注者降低细粒度标注任务的难度。通过 UniSumEval,我们对九种最新的语言模型作为摘要器进行了基准测试,提供了它们在不同输入上下文和评估维度上的性能见解。此外,我们对 SOTA 自动摘要评估器进行了彻底的比较。我们的基准数据将发布在 https://github.com/DISL-Lab/UniSumEval-v1.0。