LLM2D
Flux 已经知道 - 无需训练激活以驱动主题导向的图像生成
Flux Already Knows - Activating Subject-Driven Image Generation without Training
作者: Hao Kang, Stathi Fotiadis, Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Min Jin Chong, Xin Lu
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11478v1

摘要

arXiv:2504.11478v1 Announce Type: 跨领域 摘要:我们提出了一种使用朴素Flux模型的简单而有效的 zero-shot 图像生成框架,以实现主题驱动的图像生成。通过将任务构想为基于网格的图像补全,并在马赛克布局中简单地复制主体图像(多张),我们激活了强大的保持身份的能力,而无需任何额外的数据、训练或推理时的微调。这种“免费午餐”方法通过一种新颖的级联注意机制和元提示技术进一步增强,提升了真实感和多样性。实验结果表明,与基准相比,我们的方法在多个关键指标上的表现更优,具有某些方面的折衷。此外,它支持多样化的编辑,包括logo插入、虚拟试穿以及主体替换或插入。这些结果表明,预训练的文本到图像基础模型可以实现高质量、资源高效的主题驱动生成,为下游应用中的轻量级自定义打开了新的可能性。