LLM2D

摘要

现有的摘要质量评估基准往往缺乏多样的输入场景，只关注狭义定义的维度（例如，忠实度），并且难以应对主观和粗粒度的标注方案。为了解决这些缺陷，我们创建了 UniSumEval 基准，它扩展了输入上下文的范围（例如，领域、长度）并提供细粒度、多维度的标注。我们在数据创建中利用了 AI 辅助，识别潜在的幻觉输入文本，并帮助人类标注者降低细粒度标注任务的难度。利用 UniSumEval，我们对九种最新的语言模型进行了基准测试，以了解它们在不同输入上下文和评估维度上的表现。此外，我们对 SOTA 自动摘要评估器进行了全面比较。我们的基准数据将在 https://github.com/DISL-Lab/UniSumEval-v1.0 上公开。