摘要
arXiv:2503.22577v1 交叉公告类型
摘要:视觉语言模型(VLMs)的快速进步已经改变了多模态理解,但经常受限于生成英文响应的情况,这与输入语言无关。这一现象被称为图像诱导的语言保真度损失(IFL),其根源在于有限的多模态多语言训练数据。为了解决这一问题,我们提出了一种连续的多语言整合策略,在视觉指令微调过程中注入全文本多语言数据,以保持语言模型原有的多语言能力。广泛的评估表明,我们的方法在不牺牲视觉性能的情况下显著提高了多种语言的语言保真度。我们还探讨了模型合并的方法,这种方法可以提高语言保真度,但会牺牲视觉性能。相比之下,我们的核心方法在不妥协的情况下实现了稳健的多语言对齐,为全球VLM采用提供了一种可扩展且有效的路径,以缓解IFL问题。