LLM2D

摘要

arXiv:2504.01132v1 交叉公告类型：cross 摘要：确定断言对源文档的忠实性是一个在多个领域中都非常重要的问题。通常，这项任务被处理为一个二元判断，即断言是支持的还是不支持的。然而，在许多情况下，断言是否得到支持可能是模棱两可的。例如，它可能依赖于从给定证据中进行推理，而不同的人可以基于他们对这些推理的认同程度合理地将断言解释为支持的或不支持的。将二元标签强加于这类断言会降低评价的可靠性。在这项工作中，我们将任务重新定义为处理模棱两可断言事实性判断中的主观性问题。我们引入了由大规模语言模型生成的摘要编辑作为提供断言细致评价的方法：一个摘要需要被编辑到何种程度才能变得无歧义？断言是否被重写以及它发生了多大改变可以作为自动评价指标，即模糊重写指标（ARM），提供比二元忠实性判断更丰富的反馈信号。我们重点关注叙事摘要化这一领域，因为它特别富含模棱两可性和主观解读。我们展示了ARM在断言忠实性注释者一致性上绝对提高了21%，这表明主观性得到了降低。