LLM2D
视频-T1:测试时缩放以实现视频生成
Video-T1: Test-Time Scaling for Video Generation
作者: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18942v1

摘要

arXiv:2503.18942v1 类型: cross 摘要:随着训练数据、模型规模和计算成本的增加,视频生成在数字创作中取得了令人印象深刻的成果,使用户能够在各个领域表达创造力。最近,大语言模型(LLMs)的研究人员将扩展范围扩展到了测试时间,这可以通过更多的推理时间计算来显著提高LLM的性能。我们不通过昂贵的训练成本来扩大视频基础模型的规模,而是探索了视频生成中的测试时间缩放(TTS)的能力,旨在回答这个问题:如果一个视频生成模型能够在推理时间使用非平凡数量的计算,给定一个具有挑战性的文本提示,它可以提高多少生成质量。在这项工作中,我们将视频生成的测试时间缩放重新解释为一个搜索问题,在高斯噪声空间中从噪声到目标视频分布采样更好的轨迹。具体而言,我们构建了带有测试时间验证器的搜索空间,以提供反馈,并设计启发式算法来指导搜索过程。给定一个文本提示,我们首先探索了一个直观的线性搜索策略,通过在推理时间增加噪声候选者。由于同时对所有帧进行全步骤去噪需要大量的测试时间计算成本,我们进一步设计了一种更高效的视频生成TTS方法,称为帧树(ToF),该方法以自回归方式适当地扩展和修剪视频分支。在针对文本条件视频生成的广泛基准上进行的实验表明,增加测试时间的计算始终会导致视频质量的显著提高。项目页面:https://liuff19.github.io/Video-T1