LLM2D
通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement
作者: Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2405.15973v4

摘要

arXiv:2405.15973v4 通知类型: 替换交叉 摘要:大型视觉-语言模型(LVLMs)通过对特定数据集进行视觉指令微调,在视觉问答和推理任务中取得了令人印象深刻的成绩。然而,在视觉和语言模态的对齐方面仍然存在显著的改进空间。现有的方法通常依赖于外部模型或数据,导致对齐结果不稳定且不可控。在这篇论文中,我们提出了SIMA,一个自我改进框架,能够在没有任何外部依赖的情况下增强视觉和语言模态的对齐。SIMA利用现有的视觉指令微调数据集自我生成响应,并采用了上下文自我批评机制来构建偏好对以进行微调。最关键的是,我们的方法通过设计有效的批评提示使LVLMs能够充当批评者,从而消除了使用外部指令数据进行额外微调的需要。我们引入了自我批评过程中的三种新型视觉度量标准来引导判断,显著提高了自我批评的准确性。通过在14个幻觉和综合基准测试中进行广泛的实验,我们演示了SIMA显著提升了LVLM的性能,并优于之前的方法,实现了更好的模态对齐。