LLM2D
PreSumm:不进行摘要生成预测摘要性能
PreSumm: Predicting Summarization Performance Without Summarizing
作者: Steven Koniaev, Ori Ernst, Jackie Chi Kit Cheung
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05420v1

摘要

arXiv:2504.05420v1 交叉类型: cross 摘要: 尽管自动总结领域取得了最近的发展,但最先进的模型并不能很好地总结所有文档,这不禁让人提问: 为什么会这样?尽管先前的研究广泛地分析了总结模型,但很少有人关注文档特性在影响总结性能中的作用。在本文中,我们探讨了两个关键的研究问题。首先,文档在多个系统中的总结质量是否具有一致性?如果是这样,我们能否在生成总结之前预测文档的总结性能?我们对这两个问题给予了肯定的答案,并引入了一个名为PreSumm的新型任务,在此任务中,系统仅基于源文档预测总结性能。我们的分析揭示了PreSumm分数较低的文档的常见属性,表明这些文档往往存在连贯性问题、复杂内容或缺乏清晰的主要主题。此外,我们证明了PreSumm在两个关键应用中的实际应用价值:通过识别需要手动总结的文档,改进混合总结的工作流程;通过过滤异常值和嘈杂文档来提高数据集质量。总体而言,我们的发现强调了文档属性在总结性能中的关键作用,并提供了有关当前系统限制的见解,这些限制可以作为未来改进的基础。