LLM2D

摘要

arXiv:2504.11478v1 Announce Type: 跨领域摘要：我们提出了一种使用朴素Flux模型的简单而有效的 zero-shot 图像生成框架，以实现主题驱动的图像生成。通过将任务构想为基于网格的图像补全，并在马赛克布局中简单地复制主体图像（多张），我们激活了强大的保持身份的能力，而无需任何额外的数据、训练或推理时的微调。这种“免费午餐”方法通过一种新颖的级联注意机制和元提示技术进一步增强，提升了真实感和多样性。实验结果表明，与基准相比，我们的方法在多个关键指标上的表现更优，具有某些方面的折衷。此外，它支持多样化的编辑，包括logo插入、虚拟试穿以及主体替换或插入。这些结果表明，预训练的文本到图像基础模型可以实现高质量、资源高效的主题驱动生成，为下游应用中的轻量级自定义打开了新的可能性。