摘要
arXiv:2502.02885v1 Announce Type: cross
摘要:随着深度学习的发展,视频-文本检索这一领域取得了显著进步。然而,由于视频缺乏充分的文字描述,文本与视频匹配的挑战依然存在。两种模态之间巨大的信息差距阻碍了对视频的全面理解,导致检索结果模糊不清。虽然基于大型语言模型的重写方法被提出以扩展文本表达,精心设计的提示对于确保重写文本的合理性与完整性至关重要。本文提出了一种自动字幕增强方法,该方法通过自我学习提高表达质量并减轻增强字幕中的经验主义。此外,还设计并引入了一种专家级字幕选择机制,为每个视频定制增强字幕,促进视频-文本匹配。我们的方法完全基于数据驱动,不仅省去了大量数据收集和计算的工作,还通过避免词典依赖并引入个性化匹配来提高自我适应性。我们在多个基准上的先驱成果验证了我们方法的优越性,具体而言,在MSR-VTT上的Top-1召回率达到了68.5%,在MSVD上的Top-1召回率达到了68.1%,在DiDeMo上的Top-1召回率达到了62.0%。