摘要
arXiv:2503.09642v2 宣告类型: replace-cross
摘要:在过去一年中,视频生成模型取得了显著进展。AI视频的质量不断提升,但代价是模型规模增大、数据量增加,以及对训练计算资源的需求增加。在本报告中,我们介绍了用于仅200万美元训练的Open-Sora 2.0,这是一种商业级别的视频生成模型。通过这个模型,我们展示了训练顶级视频生成模型的成本是可以高度控制的。我们详细介绍了促成这一效率突破的所有技术,包括数据整理、模型架构、训练策略和系统优化。根据人类评估结果和VBench评分,Open-Sora 2.0在视频生成方面与开源的HunyuanVideo和闭源的Runway Gen-3 Alpha等全球领先模型相当。通过将Open-Sora 2.0完全开源,我们旨在使高级视频生成技术的访问更加平民化,促进内容创作领域的更广泛创新和创造力。所有资源均可在以下网址公开访问:https://github.com/hpcaitech/Open-Sora。