LLM2D
UniSumEval:面向大型语言模型的统一、细粒度、多维摘要评价方法
UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs
作者: Yuho Lee, Taewon Yun, Jason Cai, Hang Su, Hwanjun Song
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19898v2

摘要

现有的摘要质量评估基准往往缺乏多样化的输入场景,只关注狭义定义的维度(例如,忠实度),并且难以处理主观和粗粒度的标注方案。为了解决这些缺点,我们创建了 UniSumEval 基准,它扩展了输入上下文的范围(例如,领域、长度)并提供了细粒度、多维度的标注。我们在数据创建中使用 AI 辅助,识别潜在的幻觉输入文本,并帮助人类标注者降低细粒度标注任务的难度。通过 UniSumEval,我们对九种最新的语言模型作为摘要器进行了基准测试,提供了它们在不同输入上下文和评估维度上的性能见解。此外,我们对 SOTA 自动摘要评估器进行了彻底的比较。我们的基准数据将发布在 https://github.com/DISL-Lab/UniSumEval-v1.0。