LLM2D

摘要

arXiv:2504.10188v1 宣布类型: cross 摘要: 扩散模型在生成高维数据方面表现出色，但在训练效率和表示质量上远逊于自监督方法。我们发现一个关键瓶颈：训练过程中高质量、语义丰富的表示被未充分利用，显著减缓了收敛速度。我们的系统分析揭示了一个关键的表示处理区域——主要在早期层中，在生成之前，模型在此处学习语义和结构模式。为了解决这个问题，我们提出了嵌入表示预热（Embedded Representation Warmup，ERW）框架，在第一阶段中，ERW模块作为预热，用预训练的高质量表示初始化扩散模型的早期层。这种预热减轻了从零开始学习表示的负担，从而加速了收敛并提升了性能。我们的理论分析表明，ERW的效果取决于其精确集成到特定的神经网络层——称为表示处理区域——在此区域，模型主要处理和转换特征表示，为后续生成做准备。进一步的研究表明，ERW不仅能加速训练收敛，还能提升表示质量：实验结果表明，与当前最先进的方法REPA相比，我们的方法在训练速度上实现了40倍的加速。代码可以参见 https://github.com/LINs-lab/ERW。