LLM2D

摘要

arXiv:2405.15973v4 通知类型: 替换交叉摘要：大型视觉-语言模型（LVLMs）通过对特定数据集进行视觉指令微调，在视觉问答和推理任务中取得了令人印象深刻的成绩。然而，在视觉和语言模态的对齐方面仍然存在显著的改进空间。现有的方法通常依赖于外部模型或数据，导致对齐结果不稳定且不可控。在这篇论文中，我们提出了SIMA，一个自我改进框架，能够在没有任何外部依赖的情况下增强视觉和语言模态的对齐。SIMA利用现有的视觉指令微调数据集自我生成响应，并采用了上下文自我批评机制来构建偏好对以进行微调。最关键的是，我们的方法通过设计有效的批评提示使LVLMs能够充当批评者，从而消除了使用外部指令数据进行额外微调的需要。我们引入了自我批评过程中的三种新型视觉度量标准来引导判断，显著提高了自我批评的准确性。通过在14个幻觉和综合基准测试中进行广泛的实验，我们演示了SIMA显著提升了LVLM的性能，并优于之前的方法，实现了更好的模态对齐。