LLM2D
ReSpec: 基于相关性和特异性的时间在线过滤方法用于视频-文本数据流学习
ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams
作者: Chris Dongjoo Kim, Jihwan Moon, Sangwoo Moon, Heeseung Yun, Sihaeng Lee, Aniruddha Kembhavi, Soonyoung Lee, Gunhee Kim, Sangho Lee, Christopher Clark
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14875v1

摘要

arXiv:2504.14875v1 宣布类型: cross 摘要:视频-文本数据的快速增长在训练过程中带来了存储和计算方面的挑战。在线学习能够实时处理流式数据,为解决这些问题提供了有前途的解决方案,并且在需要实时响应的场景下也能实现快速适应。提高学习效率和效果的一种策略是识别并优先选择能够提高目标下游任务性能的数据。我们提出了基于相关性和具体性的在线筛选框架(ReSpec),根据以下四个标准选择数据:(i)模态对齐以确保干净数据,(ii)任务相关性以确保目标导向的数据,(iii)具体性以确保信息丰富且详细的数据,以及(iv)效率以实现低延迟处理。相关性通过即将流入的数据与下游任务的概率对齐来确定,而具体性则通过与表示最不具体数据的基础嵌入的距离来高效地代理信息丰富性。通过从目标任务数据建立参考点,ReSpec 实时筛选流入的数据,从而消除了对大量存储和计算的需求。在大规模数据集 WebVid2M 和 VideoCC3M 上进行评估,ReSpec 在五个零样本视频检索任务中达到了最新技术水平,仅使用了不到 5% 的数据,在计算资源上几乎无影响。源代码可从 https://github.com/cdjkim/ReSpec 获取。