摘要
arXiv:2505.09166v1 类别: cross
摘要: 在文本生成图像(TTI)的创意实践中,图像是从文本提示生成的。然而,TTI 模型在训练时会始终生成输出,即使提示中包含未知术语。在这种情况下,模型可能会生成我们称之为“默认图像”的图像:这些图像在许多不相关的提示之间彼此高度相似。我们主张研究默认图像对于设计更好的 TTI 解决方案和提示工程具有价值。在本文中,我们对 Midjourney 进行了首次默认图像的研究,Midjourney 是一个流行的图像生成器。我们描述了我们系统的方法来创建触发默认图像的输入提示,并展示了我们初步实验和几个小型消融研究的结果。我们还报告了一项关于默认图像如何影响用户满意度的调查研究。我们的工作为理解 TTI 中的默认图像奠定了基础,并突显了挑战和未来的研究方向。