摘要
arXiv:2502.02885v2 通知类型: 替换-跨领域
摘要:由于视频的个性化和不充分的文本描述造成的信息不匹配,视频-文本检索一直停滞不前。这两种模态之间巨大的信息差距阻碍了有效的跨模态表示对齐,导致检索结果含糊不清。尽管已经提出了文本重写方法以扩展文本表达,但在文本表示空间几乎无法因缺乏语义丰富性而扩大时,模态差距依然显著。相反,本文转向增强视觉呈现,通过字幕生成将视频表达拉近文本表示,从而促进视频-文本匹配。虽然多模态大型语言模型(mLLM)展示了将视频内容转换为文本的强大能力,但精心设计的提示对于确保生成字幕的合理性和完整性至关重要。因此,本文提出了一种自动字幕增强方法,通过自我学习提升表达质量并减轻增强字幕中的经验主义。此外,还设计并引入了一种专业化的字幕选择机制,以根据每个视频定制增强字幕,进一步探索字幕增强的利用潜力。我们的方法完全是数据驱动的,不仅省去了沉重的数据收集和计算工作量,还通过规避词汇依赖性和引入个性化匹配来提高自我适应性。我们的方法在各种基准的性能指标上得到了验证,具体来说,在MSR-VTT上的Top-1召回准确率为68.5%,在MSVD上的Top-1召回准确率为68.1%,在DiDeMo上的Top-1召回准确率为62.0%。我们的代码可在https://github.com/CaryXiang/ECA4VTR上公开获取。