摘要
arXiv:2502.15079v1 宣传类型: 交叉
摘要: 大型视觉-语言模型 often 生成与其视觉输入无关的幻觉内容。虽然先前的工作侧重于减轻幻觉,我们反而探索将幻觉矫正作为训练目标,以提高视频-语言对齐。我们引入了 HACA,这是一种自训练框架,旨在纠正描述与视频内容不一致时的幻觉。通过识别并纠正不一致性,HACA 提升了模型在时空推理中对视频和文本表示进行对齐的能力。我们的实验结果表明,在视频字幕绑定和文本到视频检索任务中存在一致的改进,证明了受幻觉矫正启发的任务是提高视觉和语言对齐的有效策略。