LLM2D

摘要

关键词生成（KPG）旨在自动生成一组短语，以代表给定文档的核心概念。KPG 中的主流范式包括 one2seq 和 one2set。近年来，将大型语言模型 (LLM) 应用于 KPG 越来越受到关注。我们的初步实验表明，单个模型在召回率和精确率方面都表现出色是一个挑战。进一步分析表明：1）one2set 范式具有高召回率的优势，但在训练期间存在监督信号分配不当的问题；2）LLM 在关键词选择方面功能强大，但现有的选择方法往往会进行冗余选择。鉴于这些观察结果，我们引入了一个生成-选择框架，将 KPG 分解为两个步骤，其中我们采用基于 one2set 的模型作为生成器来生成候选词，然后使用 LLM 作为选择器从这些候选词中选择关键词。特别是，我们对我们的生成器和选择器进行了两项重要改进：1）我们设计了一种基于最优传输的分配策略来解决上述分配不当问题；2）我们将关键词选择建模为一个序列标注任务，以缓解冗余选择。在多个基准数据集上的实验结果表明，我们的框架显著超越了最先进的模型，尤其是在缺失关键词预测方面。