LLM2D

摘要

arXiv:2503.23407v1 交叉域生成类型：交叉摘要：基于编码器-解码器AI架构的跨域生成模型在生成逼真图像方面引起了广泛关注，领域对齐对于生成准确性至关重要。领域对齐方法通常直接处理初始分布，但不匹配或混合聚类可能导致解码器中的模式崩溃和混合问题，从而影响模型的泛化能力。在本文中，我们创新了一种跨域对齐和生成模型，引入了基于几何映射的规范潜在空间表示，以在严格和精确的方式对齐跨域潜在空间，从而避免编码器-解码器生成架构中的模式崩溃和混合现象。我们称此模型为GMapLatent。该方法的核心在于通过使用规范参数化的装饰潜在空间来无缝地对齐潜在空间，并严格遵循聚类对应关系约束。我们首先（1）通过组合重心平移、最优传输合并和受约束的谐波映射，将潜在空间转换为规范参数域，然后（2）在规范参数域上计算具有聚类约束的几何配准。这一过程实现了新转换潜在空间之间的双射（一对一且满射）映射，并精确对齐聚类对。通过嵌入编码器-解码器管道中的对齐潜在空间实现跨域生成。实验结果表明，GMapLatent在灰度图像和彩色图像上的效率、有效性及适用性，并且证明所提出的模型在现有模型中具有优越的性能。