LLM2D

摘要

arXiv:2504.11478v2 宣告类型: replace-cross 摘要：我们提出了一种简单而有效的零样本框架，用于基于主题的图像生成，使用了一个普通的Flux模型。通过将任务框架化为基于网格的图像补全，并在马赛克布局中简单地复制主题图像（多个），我们激活了强大的身份保持能力，无需任何额外的数据、训练或推理时的微调。“免费午餐”方法通过新颖的级联注意力设计和元提示技术得到了进一步加强，从而提高了保真度和灵活性。实验结果表明，我们的方法在多个基准测试和人类偏好研究中，在多个关键指标上超过了基线方法，但某些方面存在权衡。此外，该方法支持多种编辑，包括徽标插入、虚拟试穿以及主题替换或插入。这些结果表明，预训练的文本到图像基础模型可以实现高质量且资源高效的基于主题的生成，为下游应用中的轻量级定制开辟了新可能。