LLM2D

摘要

arXiv:2410.12705v5 宣告类型: replace-cross 摘要：视觉语言模型（VLMs）在处理文化特定知识方面经常遇到困难，尤其是在英语之外的语言以及不足代表的文化背景中。为了评估它们对这些知识的理解，我们引入了WorldCuisines，这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括30种语言和方言的文本-图像配对视觉问答（VQA）数据集，涵盖了9个语言家族，拥有超过100万个数据点，使其成为迄今为止最大的多文化VQA基准。该基准包含识别菜品名称及其来源的任务。我们提供了两个规模的评估数据集（分别为12k和60k实例）以及一个训练数据集（100万个实例）。我们的研究表明，虽然视觉语言模型在正确的地理位置上下文中表现更好，但在对抗性上下文和预测特定区域性菜肴和语言方面仍然存在问题。为了支持未来的研究，我们发布了包含标注食品条目和图像的知识库，与VQA数据一起提供。