摘要
arXiv:2502.07455v1 Announce Type: cross
摘要:文本到图像生成模型在全球用户中越来越受欢迎。然而,这些模型中很多都强烈偏向英语文化,忽视了或错误地表现了其他语言群体、国家和民族的独特特征。缺乏文化意识会降低生成质量,并可能导致无意识的侮辱,以及偏见的扩散。与自然语言处理领域相比,计算机视觉中的文化意识研究还不那么广泛。在本文中,我们力求缩小这一差距。我们提出了一个RusCode基准,用于评估包含俄罗斯文化代码要素的文本到图像生成的质量。为此,我们列出了19个最佳代表俄罗斯视觉文化特征的类别。我们的最终数据集包括1250个用俄文和英文翻译的文本提示。这些提示涵盖了广泛的主题,包括艺术中的复杂概念、流行文化、民间传统、著名人物的名字、自然对象、科学成就等。我们展示了使用流行生成模型对俄罗斯视觉概念表示进行并排比较的人类评估结果。