摘要
arXiv:2504.01883v1 通知类型: 新增
摘要: 在知识密集型任务中,检索增强生成(RAG)模型表现优异,尤其是在少量样本学习的约束条件下。我们介绍了一种名为CoRAG的框架,该框架将RAG扩展到了协作环境中,在这种环境中,客户端共同训练共享模型并使用协作段落存储库。为了评估CoRAG,我们引入了CRAB基准,用于协作同质开放域问答。我们的实验表明,在资源有限的情景中,CoRAG始终优于参数协作学习方法和本地训练的RAG模型。进一步的分析揭示了共享存储库中相关段落的重要性,意外的无关联段落带来的好处,以及难以匹配的负样本可能对性能的负面影响。这引入了协作RAG中的一个新考虑因素:共同丰富知识库带来的利用机会与从其他客户端引入有害段落的风险之间的权衡。我们的发现强调了CoRAG的可行性,同时也指出了关键设计挑战和未来研究的前景。