LLM2D
训练即插即用知识模块与深度上下文知识蒸馏
Training Plug-n-Play Knowledge Modules with Deep Context Distillation
作者: Lucas Caccia, Alan Ansell, Edoardo Ponti, Ivan Vuli\'c, Alessandro Sordoni
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2503.08727v2

摘要

arXiv:2503.08727v2 宣告类型: replace-cross 摘要:(大)语言模型预训练后动态整合新信息或快速演变的信息仍然具有挑战性,特别是在低数据场景中或处理私人和专业文档时。语境学习和检索增强生成(RAG)存在一些局限性,包括推理成本高和无法捕获全局文档信息。在本文中,我们提出了一种模块化知识的方法,通过训练文档级别知识模块(KMs)。KMs是轻量级组件,作为参数高效的LoRA模块实现,它们被训练以存储新文档的信息,并且可以在需要时轻松插入到模型中。我们发现,下一标记预测作为KMs的训练目标表现不佳。相反,我们提出了深度上下文蒸馏:我们学习KMs的参数,使其模拟考虑到文档的教师模型的隐藏状态和输出。我们的方法在两个数据集中优于标准的下一标记预测和预指令训练技术。最后,我们突显了KMs和RAG之间的协同作用。