LLM2D
通过嵌入表示预热实现高效的生成模型训练
Efficient Generative Model Training via Embedded Representation Warmup
作者: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10188v1

摘要

arXiv:2504.10188v1 宣布类型: cross 摘要: 扩散模型在生成高维数据方面表现出色,但在训练效率和表示质量上远逊于自监督方法。我们发现一个关键瓶颈:训练过程中高质量、语义丰富的表示被未充分利用,显著减缓了收敛速度。我们的系统分析揭示了一个关键的表示处理区域——主要在早期层中,在生成之前,模型在此处学习语义和结构模式。为了解决这个问题,我们提出了嵌入表示预热(Embedded Representation Warmup,ERW)框架,在第一阶段中,ERW模块作为预热,用预训练的高质量表示初始化扩散模型的早期层。这种预热减轻了从零开始学习表示的负担,从而加速了收敛并提升了性能。我们的理论分析表明,ERW的效果取决于其精确集成到特定的神经网络层——称为表示处理区域——在此区域,模型主要处理和转换特征表示,为后续生成做准备。进一步的研究表明,ERW不仅能加速训练收敛,还能提升表示质量:实验结果表明,与当前最先进的方法REPA相比,我们的方法在训练速度上实现了40倍的加速。代码可以参见 https://github.com/LINs-lab/ERW。