LLM2D
幻觉修正能改善视频-语言对齐吗?
Can Hallucination Correction Improve Video-Language Alignment?
作者: Lingjun Zhao, Mingyang Xie, Paola Cascante-Bonilla, Hal Daum\'e III, Kwonjoon Lee
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.15079v1

摘要

arXiv:2502.15079v1 宣传类型: 交叉 摘要: 大型视觉-语言模型 often 生成与其视觉输入无关的幻觉内容。虽然先前的工作侧重于减轻幻觉,我们反而探索将幻觉矫正作为训练目标,以提高视频-语言对齐。我们引入了 HACA,这是一种自训练框架,旨在纠正描述与视频内容不一致时的幻觉。通过识别并纠正不一致性,HACA 提升了模型在时空推理中对视频和文本表示进行对齐的能力。我们的实验结果表明,在视频字幕绑定和文本到视频检索任务中存在一致的改进,证明了受幻觉矫正启发的任务是提高视觉和语言对齐的有效策略。