LLM2D

摘要

arXiv:2505.04486v1 宣告类型：交叉摘要：在概率生成模型中，流动匹配模型在图像生成任务中展现了巨大的潜力。基于连续正则化流的理念，流动匹配模型将扩散模型的传输路径从简单的先验分布推广到了数据本身。现有文献中的大多数流动匹配模型在从简单源分布（如标准高斯分布）学习流动时，并未明确建模目标数据的潜在结构/流形。这导致了在学习效率方面的问题，尤其是在许多高维的实际数据集中，这些数据经常存在于低维流形上。现有的引入流形的策略，包括具有潜在多模态分布的数据，通常需要昂贵的训练过程，因此经常导致次优性能。为了解决这些问题，我们提出了一种名为 \texttt{Latent-CFM} 的方法，它提供了一种简化训练/推理策略来利用预训练的深层潜变量模型中的多模态数据结构。通过在多模态合成数据和广泛使用的图像基准数据集上进行实验，我们展示了 \texttt{Latent-CFM} 在显著减少训练时间和计算量的情况下（在某些情况下减少约50%）具有改进的生成质量。使用2D达西流动数据集，我们证明了我们的方法能够生成比竞争方法更符合物理特性的样本。此外，通过潜空间分析，我们展示了该方法可以用于基于潜特征的条件图像生成。