摘要
arXiv:2503.18942v2 宣告类型: replace-cross
摘要:随着训练数据、模型规模和计算成本的扩大能力,视频生成已经在数字创作中取得了令人印象深刻的成果,使用户能够在各个领域表达创造力。最近,在大型语言模型(LLMs)的研究人员将扩展到测试时,这可以通过更多的推理时计算显著提高LLM的表现。相反,通过昂贵的训练成本来扩大视频基础模型的规模,我们探索了视频生成的测试时缩放(TTS)的力量,旨在回答这样一个问题:如果允许视频生成模型使用非平凡数量的推理时计算,给定一个具有挑战性的文本提示,它能提高生成质量多少。在本文中,我们将视频生成的测试时缩放重新解释为一个搜索问题,以从高斯噪声空间中采样更好的轨迹到目标视频分布。具体而言,我们构建了测试时验证器的空间,以提供反馈和启发式算法来指导搜索过程。给定一个文本提示,我们首先通过在推理时增加噪声候选者来探索直观的线性搜索策略。由于同时对所有帧进行全步去噪需要大量的测试时计算成本,我们还设计了一种更高效的TTS方法,称为帧树(ToF),该方法以自回归的方式适当地扩展和修剪视频分支。在文本条件下的视频生成基准上进行的广泛实验表明,增加测试时的计算成本始终会导致视频质量的显著提高。项目页面:https://liuff19.github.io/Video-T1