摘要
arXiv:2410.12705v5 宣告类型: replace-cross
摘要:视觉语言模型(VLMs)在处理文化特定知识方面经常遇到困难,尤其是在英语之外的语言以及不足代表的文化背景中。为了评估它们对这些知识的理解,我们引入了WorldCuisines,这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括30种语言和方言的文本-图像配对视觉问答(VQA)数据集,涵盖了9个语言家族,拥有超过100万个数据点,使其成为迄今为止最大的多文化VQA基准。该基准包含识别菜品名称及其来源的任务。我们提供了两个规模的评估数据集(分别为12k和60k实例)以及一个训练数据集(100万个实例)。我们的研究表明,虽然视觉语言模型在正确的地理位置上下文中表现更好,但在对抗性上下文和预测特定区域性菜肴和语言方面仍然存在问题。为了支持未来的研究,我们发布了包含标注食品条目和图像的知识库,与VQA数据一起提供。