LLM2D

摘要

arXiv:2407.06501v3 通告类型: 替换摘要：人类评估一直是检查自提取总结忠实性的金标准。然而，在像叙事这样的具有挑战性的源领域中，多个注释器可能会一致地认为一个总结是忠实的，而一旦指出某些明显的错误，才发现遗漏了这些细节。因此，我们介绍了一个新的数据集STORYSUMM，包含对短篇故事进行LLM总结并附有局部忠实性标签和错误解释的数据集。该基准用于评估方法，测试给定方法是否能够检测出难以察觉的不一致之处。使用该数据集，我们首先表明任何一种人类注释协议都可能会错过不一致之处，并提倡在建立总结数据集的根源事实时采用多种方法。最后，我们测试了最近的自动评估指标，发现它们在该任务上的平衡准确率均不超过70%，证明这是一个未来工作在忠实性评估方面具有挑战性的基准。