LLM2D
Open-Sora 2.0:在200万美元以内训练一个商业级视频生成模型
Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
作者: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.09642v2

摘要

arXiv:2503.09642v2 宣告类型: replace-cross 摘要:在过去一年中,视频生成模型取得了显著进展。AI视频的质量不断提升,但代价是模型规模增大、数据量增加,以及对训练计算资源的需求增加。在本报告中,我们介绍了用于仅200万美元训练的Open-Sora 2.0,这是一种商业级别的视频生成模型。通过这个模型,我们展示了训练顶级视频生成模型的成本是可以高度控制的。我们详细介绍了促成这一效率突破的所有技术,包括数据整理、模型架构、训练策略和系统优化。根据人类评估结果和VBench评分,Open-Sora 2.0在视频生成方面与开源的HunyuanVideo和闭源的Runway Gen-3 Alpha等全球领先模型相当。通过将Open-Sora 2.0完全开源,我们旨在使高级视频生成技术的访问更加平民化,促进内容创作领域的更广泛创新和创造力。所有资源均可在以下网址公开访问:https://github.com/hpcaitech/Open-Sora。