摘要
arXiv:2502.02885v3 通知类型: 替换-交叉
摘要:视频-文本检索由于视频的个性化且不充分的文字描述而陷入了信息不匹配的困境。两种模态之间巨大的信息缺口阻碍了有效的跨模态表示对齐,导致检索结果含糊不清。虽然已经提出了文本重写方法来拓宽文字表达,但由于文本表示空间无法因缺乏语义丰富性而得到扩展,所以模态差距仍然显著。相反,本文转向增强视觉呈现,并通过标题生成将视频表达更接近文本表示,从而促进视频-文本匹配。尽管多模态大型语言模型(mLLM)展现了将视频内容转换为文本的强大能力,但精心设计的提示对于确保生成的标题的合理性和完整性是必不可少的。因此,本文提出了一种自动标题增强方法,通过自我学习提高表达质量并减轻生成标题中的经验主义。此外,设计并引入了一种专家级标题选择机制,为每个视频定制增强标题,进一步探索标题增强的利用潜力。我们的方法完全是数据驱动的,这不仅避免了沉重的数据收集和计算工作负载,还通过规避词典依赖性和引入个性化匹配来提高自我适应性。我们的方法在各种基准上的性能得到了验证,具体而言,在MSR-VTT上实现了Top-1召回准确率68.5%,在MSVD上为68.1%,在DiDeMo上为62.0%。我们的代码可在https://github.com/CaryXiang/ECA4VTR上公开获取。