LLM2D
文本生成图像中的默认图像初步探索
An Initial Exploration of Default Images in Text-to-Image Generation
作者: Hannu Simonen, Atte Kiviniemi, Jonas Oppenlaender
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09166v1

摘要

arXiv:2505.09166v1 类别: cross 摘要: 在文本生成图像(TTI)的创意实践中,图像是从文本提示生成的。然而,TTI 模型在训练时会始终生成输出,即使提示中包含未知术语。在这种情况下,模型可能会生成我们称之为“默认图像”的图像:这些图像在许多不相关的提示之间彼此高度相似。我们主张研究默认图像对于设计更好的 TTI 解决方案和提示工程具有价值。在本文中,我们对 Midjourney 进行了首次默认图像的研究,Midjourney 是一个流行的图像生成器。我们描述了我们系统的方法来创建触发默认图像的输入提示,并展示了我们初步实验和几个小型消融研究的结果。我们还报告了一项关于默认图像如何影响用户满意度的调查研究。我们的工作为理解 TTI 中的默认图像奠定了基础,并突显了挑战和未来的研究方向。