摘要
arXiv:2505.06324v1 宣告类型:交叉
摘要:随着大型语言模型(LLMs)越来越多地应用于基于文档的任务——例如文档摘要、问答和信息提取——用户的需求集中在从提供的文档中检索信息,而不是依赖模型的参数知识,因此确保这些系统的可靠性和可解释性已成为关键问题。解决这一挑战的核心方法之一是归因,这涉及到追踪生成的输出回其来源文档。然而,由于LLMs可以生成不准确或不精确的响应,评估这些引用的可靠性变得至关重要。
为应对这一挑战,我们的工作提出了两种技术。(1) 零样本方法将归因框架化为一个简单的文本蕴含任务。我们的方法使用flan-ul2在AttributionBench的数据集的最佳基线(ID集和OOD集)上分别提高了0.27%和2.4%。(2) 我们还探讨了注意力机制在增强归因过程中的作用。使用较小的LLM flan-t5-small,在几乎所有层(除了第4层和第8到第11层)的F1分数均优于基线。