摘要
arXiv:2504.11478v1 Announce Type: 跨领域
摘要:我们提出了一种使用朴素Flux模型的简单而有效的 zero-shot 图像生成框架,以实现主题驱动的图像生成。通过将任务构想为基于网格的图像补全,并在马赛克布局中简单地复制主体图像(多张),我们激活了强大的保持身份的能力,而无需任何额外的数据、训练或推理时的微调。这种“免费午餐”方法通过一种新颖的级联注意机制和元提示技术进一步增强,提升了真实感和多样性。实验结果表明,与基准相比,我们的方法在多个关键指标上的表现更优,具有某些方面的折衷。此外,它支持多样化的编辑,包括logo插入、虚拟试穿以及主体替换或插入。这些结果表明,预训练的文本到图像基础模型可以实现高质量、资源高效的主题驱动生成,为下游应用中的轻量级自定义打开了新的可能性。