LLM2D

摘要

arXiv:2503.16929v2 通知类型: 替换-交叉摘要：通过利用两阶段范式进行开发，视频大型语言模型（Video LLMs）取得了显著的成功：首先在大规模视频-文本数据上进行预训练以实现视觉-语言对齐，然后进行监督微调（SFT）以获得任务特定的能力。然而，现有的方法在时间推理方面存在困难，因为数据中的时间对应关系较弱，并且在训练过程中依赖于下一个标记预测范式。为了解决这些限制，我们提出了TEMPLE（TEMporal Preference Learning），这是一种系统框架，通过直接偏好优化（DPO）增强了Video LLMs的时间推理能力。为了实现这一目标，我们引入了一种自动化偏好数据生成管道，该管道系统地构建偏好对，通过选择富含时间信息的视频、设计特定于视频的扰动策略，并最终在干净和扰动的视频输入上评估模型响应。我们的时间对齐包含两个关键创新：逐级递增扰动难度的课程学习，以提高模型的稳健性和适应性；以及“预-SFT 对齐”，在指令调优之前应用偏好优化，以优先考虑细微的时间理解。广泛的实验结果显示，我们的方法在多个基准上始终能够通过少量自动生成的DPO数据提高Video LLM的性能。我们还分析了DPO数据在不同架构之间的迁移能力和优化中的难度调度的作用。我们的研究结果突显了TEMPLE作为基于SFT方法的可扩展和高效的补充，并为开发可靠的Video LLM铺平了道路。代码可在 https://github.com/lscpku/TEMPLE 获取。