摘要
为大型语言模型 (LLM) 赋予信息检索能力(即检索增强生成 (RAG))已被证明有利于知识密集型任务。然而,在生成回复时理解用户上下文搜索意图对于对话式问答 (QA) 来说是一个鲜为人知的课题。与单轮 QA 相比,这种对话式扩展带来了额外的挑战,因为系统更难理解对话上下文并在多轮对话中管理检索到的段落。在这项工作中,我们提出了一种方法,使 LLM 能够在给定对话上下文的情况下决定何时在 RAG 设置中检索。当检索被认为是必要的时,LLM 然后重写对话以进行段落检索,并在生成响应之前判断返回段落的相关性。在操作上,我们建立在单轮 SELF-RAG 框架(Asai 等人,2023)的基础上,并为对话设置提出了 SELF-multi-RAG。SELF-multi-RAG 在检索相关段落(通过使用总结的对话上下文)和评估生成响应的质量方面展示了比单轮变体更好的能力。在三个对话式 QA 数据集上的实验验证了 SELF-multi-RAG 增强后的响应生成能力,通过人工标注测量的改进率约为 13%。