LLM2D

摘要

arXiv:2505.09166v1 类别: cross 摘要: 在文本生成图像（TTI）的创意实践中，图像是从文本提示生成的。然而，TTI 模型在训练时会始终生成输出，即使提示中包含未知术语。在这种情况下，模型可能会生成我们称之为“默认图像”的图像：这些图像在许多不相关的提示之间彼此高度相似。我们主张研究默认图像对于设计更好的 TTI 解决方案和提示工程具有价值。在本文中，我们对 Midjourney 进行了首次默认图像的研究，Midjourney 是一个流行的图像生成器。我们描述了我们系统的方法来创建触发默认图像的输入提示，并展示了我们初步实验和几个小型消融研究的结果。我们还报告了一项关于默认图像如何影响用户满意度的调查研究。我们的工作为理解 TTI 中的默认图像奠定了基础，并突显了挑战和未来的研究方向。