摘要
arXiv:2405.17475v2 通知类型: 替换-交叉
摘要:一幅图常常胜过千言万语,某些图像可以讲述丰富而深刻的故事情节。这些故事情节能否通过图像描述出来呢?来自民间传说类别的图像,如神话、民间舞蹈、文化标志和象征,对每种文化都是至关重要的。我们的研究比较了四种流行的多模态模型(GPT-4V、Gemini Pro Vision、LLaVA 和 OpenFlamingo)在识别此类图像中的文化特异性信息以及生成准确且文化敏感的图像描述方面的性能。我们还提出了一个新的评估指标,文化意识评分(CAS),用于衡量图像描述中的文化意识程度。我们提供了一个带有文化背景和上下文的真实标签数据集 MOSAIC-1.5k,并提供了一个带有分配文化意识评分的标签数据集,可以用于未见过的数据。为科学研究和许多实际应用创建合适的图像描述是有价值的。我们展望这项工作将促进全球在人工智能应用中对文化敏感性的更深层次整合。通过公开数据集和文化意识评分,我们旨在促进该领域的进一步研究,鼓励开发更具备文化意识的人工智能系统,这些系统尊重并庆祝全球多样性。