LLM2D

摘要

arXiv:2502.15079v1 宣传类型: 交叉摘要: 大型视觉-语言模型 often 生成与其视觉输入无关的幻觉内容。虽然先前的工作侧重于减轻幻觉，我们反而探索将幻觉矫正作为训练目标，以提高视频-语言对齐。我们引入了 HACA，这是一种自训练框架，旨在纠正描述与视频内容不一致时的幻觉。通过识别并纠正不一致性，HACA 提升了模型在时空推理中对视频和文本表示进行对齐的能力。我们的实验结果表明，在视频字幕绑定和文本到视频检索任务中存在一致的改进，证明了受幻觉矫正启发的任务是提高视觉和语言对齐的有效策略。