LLM2D
长文本关键词提取
LongKey: Keyphrase Extraction for Long Documents
作者: Jeovane Honorio Alves, Radu State, Cinthia Obladen de Almendra Freitas, Jean Paul Barddal
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.17863v1

摘要

在信息过载的时代,手动标注海量且不断增长的文献和学术论文变得越来越不切实际。自动关键词提取通过识别文本中的代表性术语来应对这一挑战。然而,大多数现有方法都侧重于短文本(最多 512 个词元),在处理长文本方面存在差距。本文介绍了一种用于从长文本中提取关键词的新框架 LongKey,它使用基于编码器的语言模型来捕捉扩展文本的复杂性。LongKey 使用最大池化嵌入器来增强关键词候选的表示。在全面的 LDKP 数据集和六个不同的未见数据集上的验证结果表明,LongKey 始终优于现有的无监督和基于语言模型的关键词提取方法。我们的研究结果证明了 LongKey 的多功能性和优越性能,标志着关键词提取在不同文本长度和领域方面的进步。