摘要
arXiv:2504.12513v1 Announce Type: cross
摘要:对比视频-语言预训练已经在学习丰富且鲁棒的视频表示方面取得了巨大的成功。然而,由于这些视频编码器的高计算需求,要在计算资源受限的边缘设备上部署它们仍然具有挑战性。此外,现有的模型通常仅被训练为处理短视频片段,通常只限于4到64帧。在这篇论文中,我们引入了AdaVid,这是一种灵活的架构框架,旨在学习高效的视频编码器,可以根据可用资源动态调整其计算足迹。AdaVid的核心是一个由Matryoshka Representation Learning启发的自适应变换器块,这使得模型能够在推理时调整其隐藏嵌入维度。我们显示,使用大型Ego4D数据集上的视频-叙述对训练的AdaVid-EgoVLP,在仅使用一半计算资源的情况下,可以与标准EgoVLP在短视频-语言基准上达到相同的性能,并且在提供相同计算资源时甚至优于EgoVLP。我们还进一步探索了在具有挑战性的Diving48分类基准上帧数和计算之间的权衡,显示AdaVid使得使用更多帧而不超出计算限制成为可能。为了处理更长的视频,我们还提出了一种轻量级的分层网络,该网络聚合短片段特征,在多个长视频基准上实现了计算效率和准确性的良好平衡。