LLM2D
STORYSUMM:评估故事摘要的忠实度
STORYSUMM: Evaluating Faithfulness in Story Summarization
作者: Melanie Subbiah, Faisal Ladhak, Akankshya Mishra, Griffin Adams, Lydia B. Chilton, Kathleen McKeown
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2407.06501v3

摘要

arXiv:2407.06501v3 通告类型: 替换 摘要:人类评估一直是检查自提取总结忠实性的金标准。然而,在像叙事这样的具有挑战性的源领域中,多个注释器可能会一致地认为一个总结是忠实的,而一旦指出某些明显的错误,才发现遗漏了这些细节。因此,我们介绍了一个新的数据集STORYSUMM,包含对短篇故事进行LLM总结并附有局部忠实性标签和错误解释的数据集。该基准用于评估方法,测试给定方法是否能够检测出难以察觉的不一致之处。使用该数据集,我们首先表明任何一种人类注释协议都可能会错过不一致之处,并提倡在建立总结数据集的根源事实时采用多种方法。最后,我们测试了最近的自动评估指标,发现它们在该任务上的平衡准确率均不超过70%,证明这是一个未来工作在忠实性评估方面具有挑战性的基准。