LLM2D

摘要

arXiv:2504.05420v1 交叉类型: cross 摘要: 尽管自动总结领域取得了最近的发展，但最先进的模型并不能很好地总结所有文档，这不禁让人提问: 为什么会这样？尽管先前的研究广泛地分析了总结模型，但很少有人关注文档特性在影响总结性能中的作用。在本文中，我们探讨了两个关键的研究问题。首先，文档在多个系统中的总结质量是否具有一致性？如果是这样，我们能否在生成总结之前预测文档的总结性能？我们对这两个问题给予了肯定的答案，并引入了一个名为PreSumm的新型任务，在此任务中，系统仅基于源文档预测总结性能。我们的分析揭示了PreSumm分数较低的文档的常见属性，表明这些文档往往存在连贯性问题、复杂内容或缺乏清晰的主要主题。此外，我们证明了PreSumm在两个关键应用中的实际应用价值：通过识别需要手动总结的文档，改进混合总结的工作流程；通过过滤异常值和嘈杂文档来提高数据集质量。总体而言，我们的发现强调了文档属性在总结性能中的关键作用，并提供了有关当前系统限制的见解，这些限制可以作为未来改进的基础。