摘要
arXiv:2503.16929v2 通知类型: 替换-交叉
摘要:通过利用两阶段范式进行开发,视频大型语言模型(Video LLMs)取得了显著的成功:首先在大规模视频-文本数据上进行预训练以实现视觉-语言对齐,然后进行监督微调(SFT)以获得任务特定的能力。然而,现有的方法在时间推理方面存在困难,因为数据中的时间对应关系较弱,并且在训练过程中依赖于下一个标记预测范式。为了解决这些限制,我们提出了TEMPLE(TEMporal Preference Learning),这是一种系统框架,通过直接偏好优化(DPO)增强了Video LLMs的时间推理能力。为了实现这一目标,我们引入了一种自动化偏好数据生成管道,该管道系统地构建偏好对,通过选择富含时间信息的视频、设计特定于视频的扰动策略,并最终在干净和扰动的视频输入上评估模型响应。我们的时间对齐包含两个关键创新:逐级递增扰动难度的课程学习,以提高模型的稳健性和适应性;以及“预-SFT 对齐”,在指令调优之前应用偏好优化,以优先考虑细微的时间理解。广泛的实验结果显示,我们的方法在多个基准上始终能够通过少量自动生成的DPO数据提高Video LLM的性能。我们还分析了DPO数据在不同架构之间的迁移能力和优化中的难度调度的作用。我们的研究结果突显了TEMPLE作为基于SFT方法的可扩展和高效的补充,并为开发可靠的Video LLM铺平了道路。代码可在 https://github.com/lscpku/TEMPLE 获取。