LLM2D

摘要

arXiv:2505.06324v1 宣告类型：交叉摘要：随着大型语言模型（LLMs）越来越多地应用于基于文档的任务——例如文档摘要、问答和信息提取——用户的需求集中在从提供的文档中检索信息，而不是依赖模型的参数知识，因此确保这些系统的可靠性和可解释性已成为关键问题。解决这一挑战的核心方法之一是归因，这涉及到追踪生成的输出回其来源文档。然而，由于LLMs可以生成不准确或不精确的响应，评估这些引用的可靠性变得至关重要。为应对这一挑战，我们的工作提出了两种技术。(1) 零样本方法将归因框架化为一个简单的文本蕴含任务。我们的方法使用flan-ul2在AttributionBench的数据集的最佳基线（ID集和OOD集）上分别提高了0.27%和2.4%。(2) 我们还探讨了注意力机制在增强归因过程中的作用。使用较小的LLM flan-t5-small，在几乎所有层（除了第4层和第8到第11层）的F1分数均优于基线。