LLM2D

摘要

arXiv:2504.13035v1 类型: cross 摘要: 在检索系统中，同时实现搜索准确性和效率本身就是一项艰巨的任务。这一挑战在部分相关视频检索（PRVR）中尤为明显，通过为每个视频引入多种不同时间尺度的内容表示可以提高准确性，但同时也会增加计算和内存成本。为了应对这一矛盾，我们提出了一种原型PRVR框架，将视频中的多样内容编码为固定数量的原型。我们随后引入了几种策略来增强原型内的文本关联和视频理解，并引入了一个正交目标以确保原型捕捉到内容的多样性。为了通过文本查询保持原型的可检索性，同时准确地编码视频内容，我们实施了跨模式和单模式重构任务。跨模式重构任务将原型与共享空间中的文本特征对齐，而单模式重构任务在编码过程中保留所有视频内容。此外，我们使用视频混合技术为更精细地对齐原型及其相关文本表示提供弱指导。在TVR、ActivityNet-Captions和QVHighlights上的广泛评估验证了我们方法的有效性，而不牺牲效率。