LLM2D
引文BART:学习生成引文以进行局部引文推荐
CiteBART: Learning to Generate Citations for Local Citation Recommendation
作者: Ege Yi\u{g}it \c{C}elik, Selma Tekir
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2412.17534v2

摘要

arXiv:2412.17534v2 通知类型: replace-cross 摘要:局部引用推荐(LCR)是在给定上下文中为引用占位符建议一组论文。随着生成方法比传统的预取和重新排名的最先进方法更加有前景,这项任务已经发生了变化。本文引入了一种编码器-解码器架构中的引用特定预训练方法,其中引用的作者-日期标记被遮掩,以学习重构它们来满足LCR。这种预训练有两种变体。在仅局部上下文的基础方案(CiteBART-Base)中,遮掩局部上下文中的一项引用标记,以学习预测该引用。全球版本(CiteBART-Global)通过扩展该引用的标题和摘要来增强局部上下文,从而丰富学习信号。CiteBART-Global在LCR基准测试上达到了最先进的性能,除了FullTextPeerRead数据集,这个数据集非常小,无法体现出生成预训练的优势。在更大的基准测试中,例如Refseer和ArXiv上的效果显著,以Refseer基准测试训练的模型在性能上表现出最优。我们进行了全面的实验,包括消融研究、定性分析以及详细的幻觉分类统计。我们的分析证实,CiteBART-Global具有跨数据集的泛化能力;在前三个预测中的宏幻觉率(MaHR)为4%,而当真实值在前k个预测列表中时,其他预测中的幻觉倾向显著降低。