摘要
arXiv:2411.14790v4 通知类型: replace-cross
摘要:尽管检索增强生成(RAG)仍然是基于知识的问题回答(KBQA)中不可或缺的一部分,但现有的方法在特定领域面临着严峻的挑战。现有方法在小型知识库上的目标适配表现不佳:vanilla无监督训练效果较差,而微调则会产生高昂的外部信号成本。我们提出了KBAlign,这是一种通过高效模型适配增强RAG系统的自监督框架。我们的关键洞察是利用模型内在的知识对齐能力,通过两种创新机制来实现:多层次的自我注释,用于数据构建,捕捉全局知识,以及迭代调优,通过自我验证加速收敛。该框架能够实现针对特定文本知识库的成本效益模型适配,无需人类监督或外部模型辅助。实验表明,KBAlign可以在仅依赖较小模型的自我注释的情况下,达到通过GPT-4监督适配所能获得90%的性能提升。KBAlign能够以微小的成本在多个领域显著提高下游问答的准确性,特别是在需要从专门语料库中深度集成知识的场景中表现出色。我们发布了实验数据、模型和过程分析,供社区进一步探索 (https://github.com/thunlp/KBAlign)。