摘要
现代大型语言模型 (LLM) 能够生成高度可读的抽象摘要,以至于传统的用于评估摘要质量的自动化指标(如 ROUGE)已经饱和。然而,LLM 有时仍会在摘要中引入不需要的内容,即与来源不一致或来源不支持的信息。自动衡量这些通常难以察觉的“幻觉”已被证明具有挑战性。这反过来又推动了各种旨在衡量生成摘要与其来源事实一致性的指标的开发。但这些方法是否真的在衡量它们声称要衡量的内容呢?在这项工作中,我们对自动事实性指标进行了压力测试。具体来说,我们调查了摘要文本的表面属性在多大程度上足以预测“事实性”,发现仅使用此类浅层特征的(监督式)模型与最先进的事实性评分方法具有相当的竞争力。然后,我们评估了事实性指标如何响应不一致摘要中的事实更正,发现只有少数指标显示出有意义的改进。相反,一些指标对良性的、非事实性编辑更敏感。基于这些见解,我们证明可以“操纵”(大多数)自动事实性指标,即通过在生成的摘要中附加无关紧要的句子来可靠地提高“事实性”分数。总而言之,我们的结果对我们应该在多大程度上依赖现有的自动化事实性指标以及我们究竟希望“事实性指标”衡量什么提出了质疑。