LLM2D

摘要

arXiv:2411.14790v4 通知类型: replace-cross 摘要：尽管检索增强生成（RAG）仍然是基于知识的问题回答（KBQA）中不可或缺的一部分，但现有的方法在特定领域面临着严峻的挑战。现有方法在小型知识库上的目标适配表现不佳：vanilla无监督训练效果较差，而微调则会产生高昂的外部信号成本。我们提出了KBAlign，这是一种通过高效模型适配增强RAG系统的自监督框架。我们的关键洞察是利用模型内在的知识对齐能力，通过两种创新机制来实现：多层次的自我注释，用于数据构建，捕捉全局知识，以及迭代调优，通过自我验证加速收敛。该框架能够实现针对特定文本知识库的成本效益模型适配，无需人类监督或外部模型辅助。实验表明，KBAlign可以在仅依赖较小模型的自我注释的情况下，达到通过GPT-4监督适配所能获得90%的性能提升。KBAlign能够以微小的成本在多个领域显著提高下游问答的准确性，特别是在需要从专门语料库中深度集成知识的场景中表现出色。我们发布了实验数据、模型和过程分析，供社区进一步探索 (https://github.com/thunlp/KBAlign)。