LLM2D

摘要

现有的摘要质量评估基准往往缺乏多样化的输入场景，只关注狭义定义的维度（例如，忠实度），并且难以处理主观和粗粒度的标注方案。为了解决这些缺点，我们创建了 UniSumEval 基准，它扩展了输入上下文的范围（例如，领域、长度）并提供了细粒度、多维度的标注。我们在数据创建中使用 AI 辅助，识别潜在的幻觉输入文本，并帮助人类标注者降低细粒度标注任务的难度。通过 UniSumEval，我们对九种最新的语言模型作为摘要器进行了基准测试，提供了它们在不同输入上下文和评估维度上的性能见解。此外，我们对 SOTA 自动摘要评估器进行了彻底的比较。我们的基准数据将发布在 https://github.com/DISL-Lab/UniSumEval-v1.0。