LLM2D
SelfCite:大型语言模型中上下文归属的自我监督对齐
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models
作者: Yung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09604v1

摘要

arXiv:2502.09604v1 交叉类型公告 摘要: 我们介绍了SelfCite,这是一种新颖的自监督方法,用于使大型语言模型(LLM)生成其生成响应中陈述的高质量、细粒度的句子级引用。与仅依赖昂贵且劳动密集型的标注不同,SelfCite 利用了LLM自身通过上下文消融提供的奖励信号:如果需要引用,则从上下文中移除被引用的文本应阻止相同响应的生成;如果引用充足,则仅保留被引用的文本应保持相同的响应。这种奖励信号可以引导推理时的最优N采样策略,显著提高引用质量,并可以直接用于偏好优化,以直接微调模型以生成更好的引用。通过在LongBench-Cite基准上的五个长文问答任务中将引用F1提高到高达5.3个点,证明了SelfCite的有效性。