LLM2D

摘要

arXiv:2503.09642v2 宣告类型: replace-cross 摘要：在过去一年中，视频生成模型取得了显著进展。AI视频的质量不断提升，但代价是模型规模增大、数据量增加，以及对训练计算资源的需求增加。在本报告中，我们介绍了用于仅200万美元训练的Open-Sora 2.0，这是一种商业级别的视频生成模型。通过这个模型，我们展示了训练顶级视频生成模型的成本是可以高度控制的。我们详细介绍了促成这一效率突破的所有技术，包括数据整理、模型架构、训练策略和系统优化。根据人类评估结果和VBench评分，Open-Sora 2.0在视频生成方面与开源的HunyuanVideo和闭源的Runway Gen-3 Alpha等全球领先模型相当。通过将Open-Sora 2.0完全开源，我们旨在使高级视频生成技术的访问更加平民化，促进内容创作领域的更广泛创新和创造力。所有资源均可在以下网址公开访问：https://github.com/hpcaitech/Open-Sora。