LLM2D

摘要

arXiv:2504.14125v1 类别: cross 摘要: 在最初的兴奋之后，文本到图像（TTI）模型现在正受到更深入的审视。虽然许多讨论集中在大型训练数据集中嵌入的偏见和刻板印象上，但用户与这些模型的互动所涉及的社会技术动态仍然没有被广泛探索。这项研究探讨了用户在创作提示时所做出的语义和语义选择，以及这些选择如何影响生成输出的多样性。通过对Civiverse数据集在CivitAI平台上的六百多万个提示进行七个月的分析，我们将用户分为三类：一致的重复者、偶尔的重复者和不重复者。我们发现，随着用户参与时间的增长，通过采用流行社区标签和描述符，提示语言变得越来越同质化，重复的提示占据了提交的40-50%。同时，语义相似性和主题偏好相对稳定，强调常见的主题和表面美学。使用Vendi分数来量化视觉多样性，我们展示了提示中的词汇相似性与生成图像的视觉相似性之间存在明显相关性，表明语言重复强化了更不多样化的表示。这些发现突显了用户驱动因素在塑造AI生成图像方面的重要作用，超过了固有的模型偏见，并强调了需要工具和实践来鼓励TTI系统中更大的语言和主题实验，以促进更具包容性和多样性的AI生成内容。