LLM2D

摘要

arXiv:2503.18942v2 宣告类型: replace-cross 摘要：随着训练数据、模型规模和计算成本的扩大能力，视频生成已经在数字创作中取得了令人印象深刻的成果，使用户能够在各个领域表达创造力。最近，在大型语言模型（LLMs）的研究人员将扩展到测试时，这可以通过更多的推理时计算显著提高LLM的表现。相反，通过昂贵的训练成本来扩大视频基础模型的规模，我们探索了视频生成的测试时缩放（TTS）的力量，旨在回答这样一个问题：如果允许视频生成模型使用非平凡数量的推理时计算，给定一个具有挑战性的文本提示，它能提高生成质量多少。在本文中，我们将视频生成的测试时缩放重新解释为一个搜索问题，以从高斯噪声空间中采样更好的轨迹到目标视频分布。具体而言，我们构建了测试时验证器的空间，以提供反馈和启发式算法来指导搜索过程。给定一个文本提示，我们首先通过在推理时增加噪声候选者来探索直观的线性搜索策略。由于同时对所有帧进行全步去噪需要大量的测试时计算成本，我们还设计了一种更高效的TTS方法，称为帧树（ToF），该方法以自回归的方式适当地扩展和修剪视频分支。在文本条件下的视频生成基准上进行的广泛实验表明，增加测试时的计算成本始终会导致视频质量的显著提高。项目页面：https://liuff19.github.io/Video-T1