LLM2D

摘要

arXiv:2502.08914v1 命中类型: cross 摘要：文本到图像的扩散模型最近使得从文本提示生成视觉上引人注目且细节丰富的图像成为可能。然而，它们能否准确表现各种文化 nuance 方面仍是一个开放的问题。在我们的工作中，我们引入了 CultDiff 基准，评估最先进的扩散模型是否能够生成涵盖十个不同国家的文化特定图像。我们通过精细分析不同的相似性方面，展示了这些模型往往在建筑、服装和食品等方面未能生成文化符号，尤其是在欠代表的国家地区，这些模型与真实世界的参考图像相比，在文化相关性、描述准确性以及真实性方面存在显著差异。利用收集的人类评估，我们开发了一种基于神经网络的图像-图像相似性度量方法，即 CultDiff-S，用于预测真实图像与包含文化符号的生成图像的人类评判。我们的工作强调了需要更包容的生成人工智能系统和广泛文化范围内的公平数据集表示的必要性。