LLM2D

摘要

arXiv:2502.02885v2 通知类型: 替换-跨领域摘要：由于视频的个性化和不充分的文本描述造成的信息不匹配，视频-文本检索一直停滞不前。这两种模态之间巨大的信息差距阻碍了有效的跨模态表示对齐，导致检索结果含糊不清。尽管已经提出了文本重写方法以扩展文本表达，但在文本表示空间几乎无法因缺乏语义丰富性而扩大时，模态差距依然显著。相反，本文转向增强视觉呈现，通过字幕生成将视频表达拉近文本表示，从而促进视频-文本匹配。虽然多模态大型语言模型（mLLM）展示了将视频内容转换为文本的强大能力，但精心设计的提示对于确保生成字幕的合理性和完整性至关重要。因此，本文提出了一种自动字幕增强方法，通过自我学习提升表达质量并减轻增强字幕中的经验主义。此外，还设计并引入了一种专业化的字幕选择机制，以根据每个视频定制增强字幕，进一步探索字幕增强的利用潜力。我们的方法完全是数据驱动的，不仅省去了沉重的数据收集和计算工作量，还通过规避词汇依赖性和引入个性化匹配来提高自我适应性。我们的方法在各种基准的性能指标上得到了验证，具体来说，在MSR-VTT上的Top-1召回准确率为68.5%，在MSVD上的Top-1召回准确率为68.1%，在DiDeMo上的Top-1召回准确率为62.0%。我们的代码可在https://github.com/CaryXiang/ECA4VTR上公开获取。