摘要
arXiv:2410.12705v4 公告类型: 替换-交叉
摘要:视觉语言模型(VLMs)常常在处理文化特定的知识时遇到困难,特别是在非英语语言和代表性不足的文化背景下。为了评估它们对这种知识的理解,我们引入了WorldCuisines,这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括跨30种语言和方言的文字-图像数据集,涵盖了9种语言家族,包含超过100万个数据点,使其成为迄今为止最大的多文化VQA基准。它包括识别菜品名称及其来源的任务。我们提供了两种规模的评估数据集(12k和60k实例)以及一个包含100万个实例的训练数据集。我们的研究发现,虽然VLMs在正确的位置上下文中表现更好,但它们在对抗性上下文以及预测特定区域的菜系和语言方面遇到困难。为支持未来的研究,我们发布了包含标注的食品条目和图像的知识库,以及VQA数据。