LLM2D

摘要

arXiv:2504.00999v1 类型: cross 摘要：掩码图像建模（MIM）与向量量化（VQ）在自我监督预训练和图像生成方面取得了巨大成功。然而，现有的大多数方法在生成质量和表示学习及效率之间难以平衡共享潜在空间的权衡问题。为了推动这一范式的极限，我们提出了MergeVQ，将令牌合并技术整合到基于VQ的生成模型中，在统一架构中弥合了图像生成和视觉表示学习之间的差距。在预训练过程中，MergeVQ在编码器的自注意力块之后使用令牌合并模块解耦顶级语义与潜在空间，用于后续的Look-up Free Quantization（LFQ）和全局对齐，并通过解码器中的跨注意力恢复其精细细节以进行重构。至于第二阶段生成，我们引入了MergeAR，它进行KV缓存压缩以实现高效的按像素顺序预测。在ImageNet上的广泛实验验证了MergeVQ作为AR生成模型，在视觉表示学习和图像生成任务上均具有竞争力的表现，同时保持了有利的令牌效率和推理速度。代码和模型将在https://apexgen-x.github.io/MergeVQ获取。