摘要
arXiv:2405.15973v4 通知类型: 替换交叉
摘要:大型视觉-语言模型(LVLMs)通过对特定数据集进行视觉指令微调,在视觉问答和推理任务中取得了令人印象深刻的成绩。然而,在视觉和语言模态的对齐方面仍然存在显著的改进空间。现有的方法通常依赖于外部模型或数据,导致对齐结果不稳定且不可控。在这篇论文中,我们提出了SIMA,一个自我改进框架,能够在没有任何外部依赖的情况下增强视觉和语言模态的对齐。SIMA利用现有的视觉指令微调数据集自我生成响应,并采用了上下文自我批评机制来构建偏好对以进行微调。最关键的是,我们的方法通过设计有效的批评提示使LVLMs能够充当批评者,从而消除了使用外部指令数据进行额外微调的需要。我们引入了自我批评过程中的三种新型视觉度量标准来引导判断,显著提高了自我批评的准确性。通过在14个幻觉和综合基准测试中进行广泛的实验,我们演示了SIMA显著提升了LVLM的性能,并优于之前的方法,实现了更好的模态对齐。