LLM2D

摘要

arXiv:2503.18942v1 类型: cross 摘要：随着训练数据、模型规模和计算成本的增加，视频生成在数字创作中取得了令人印象深刻的成果，使用户能够在各个领域表达创造力。最近，大语言模型（LLMs）的研究人员将扩展范围扩展到了测试时间，这可以通过更多的推理时间计算来显著提高LLM的性能。我们不通过昂贵的训练成本来扩大视频基础模型的规模，而是探索了视频生成中的测试时间缩放（TTS）的能力，旨在回答这个问题：如果一个视频生成模型能够在推理时间使用非平凡数量的计算，给定一个具有挑战性的文本提示，它可以提高多少生成质量。在这项工作中，我们将视频生成的测试时间缩放重新解释为一个搜索问题，在高斯噪声空间中从噪声到目标视频分布采样更好的轨迹。具体而言，我们构建了带有测试时间验证器的搜索空间，以提供反馈，并设计启发式算法来指导搜索过程。给定一个文本提示，我们首先探索了一个直观的线性搜索策略，通过在推理时间增加噪声候选者。由于同时对所有帧进行全步骤去噪需要大量的测试时间计算成本，我们进一步设计了一种更高效的视频生成TTS方法，称为帧树（ToF），该方法以自回归方式适当地扩展和修剪视频分支。在针对文本条件视频生成的广泛基准上进行的实验表明，增加测试时间的计算始终会导致视频质量的显著提高。项目页面：https://liuff19.github.io/Video-T1