LLM2D

摘要

arXiv:2502.02885v1 Announce Type: cross 摘要：随着深度学习的发展，视频-文本检索这一领域取得了显著进步。然而，由于视频缺乏充分的文字描述，文本与视频匹配的挑战依然存在。两种模态之间巨大的信息差距阻碍了对视频的全面理解，导致检索结果模糊不清。虽然基于大型语言模型的重写方法被提出以扩展文本表达，精心设计的提示对于确保重写文本的合理性与完整性至关重要。本文提出了一种自动字幕增强方法，该方法通过自我学习提高表达质量并减轻增强字幕中的经验主义。此外，还设计并引入了一种专家级字幕选择机制，为每个视频定制增强字幕，促进视频-文本匹配。我们的方法完全基于数据驱动，不仅省去了大量数据收集和计算的工作，还通过避免词典依赖并引入个性化匹配来提高自我适应性。我们在多个基准上的先驱成果验证了我们方法的优越性，具体而言，在MSR-VTT上的Top-1召回率达到了68.5%，在MSVD上的Top-1召回率达到了68.1%，在DiDeMo上的Top-1召回率达到了62.0%。