摘要
arXiv:2502.10596v1 交叉公告类型
摘要:大型语言模型(LLMs)在知识密集型自然语言处理(NLP)任务中经常表现出色,比如回答“最近的世界杯冠军是谁?”这是因为它们在训练期间学到的知识可能不足或过时。利用检索到的文档进行生成——这是一种称为检索增强生成(RAG)的技术——通过允许模型利用上下文信息来缓解这些不足。从业者可以通过针对检索增强指令进行微调来提高LLM的RAG性能,但必须小心,这可能会导致模型产生不希望的行为,如虚构信息。我们将这一退化归因于训练数据可能与模型分布不符,并且可能遭受质量问题的影响,例如检索和目标响应之间的不匹配(因为检索通常是在事后添加的)。我们提出了一种针对RAG增强的LLM进行训练的方法,使用自动生成的示范,从而避免使用分布外的文本进行训练,并将检索整合到LLM的响应中。我们通过对知识密集型问答(QA)任务进行评估,并展示了我们的方法教导LLM正确处理上下文检索并避免回答它可能会答错的问题。与传统的RA-IT方法相比,我们的方法在非RAG设置中防止了模型性能下降,同时在问答性能上表现出色。