摘要
arXiv:2505.00029v1 类型: cross
摘要: 通过广泛的大规模多模态预训练,大型视觉语言模型展示了令人印象深刻的多功能能力,但在整合超出其训练分布的专业知识领域时面临重大限制。这些模型在最基本的两难境地中挣扎:直接适应方法将注入特定领域的知识,往往会引发基础视觉-语言能力的灾难性遗忘。我们引入了结构化对话微调(SDFT),这是一种有效的方法,能够在不引起灾难性遗忘的情况下有效注入特定领域的知识。我们的方法借鉴了大型语言模型的监督微调和文本生成图像模型的主题驱动个性化领域的三阶段对话结构:基础保存通过描述任务强化了预训练的视觉-语言对齐;对比消歧通过引入精心设计的反事实示例来保持语义边界;知识专业化通过链式推理嵌入特殊信息。在多个领域进行的实验结果证实,SDFT 在专业知识获取与通用能力保留之间实现了平衡。我们的关键贡献包括一个以数据为中心的对话模板,该模板平衡了基础对齐与目标知识集成,一个加权多轮监督框架,以及针对多种知识类型进行的全面评估。