摘要
arXiv:2407.06501v3 通告类型: 替换
摘要:人类评估一直是检查自提取总结忠实性的金标准。然而,在像叙事这样的具有挑战性的源领域中,多个注释器可能会一致地认为一个总结是忠实的,而一旦指出某些明显的错误,才发现遗漏了这些细节。因此,我们介绍了一个新的数据集STORYSUMM,包含对短篇故事进行LLM总结并附有局部忠实性标签和错误解释的数据集。该基准用于评估方法,测试给定方法是否能够检测出难以察觉的不一致之处。使用该数据集,我们首先表明任何一种人类注释协议都可能会错过不一致之处,并提倡在建立总结数据集的根源事实时采用多种方法。最后,我们测试了最近的自动评估指标,发现它们在该任务上的平衡准确率均不超过70%,证明这是一个未来工作在忠实性评估方面具有挑战性的基准。