LLM2D

世界美食：全球美食多语言多文化视觉问答基准数据集

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

作者: Genta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

发布日期: 2/11/2025

arXiv ID: oai:arXiv.org:2410.12705v4

摘要

arXiv:2410.12705v4 公告类型: 替换-交叉摘要：视觉语言模型（VLMs）常常在处理文化特定的知识时遇到困难，特别是在非英语语言和代表性不足的文化背景下。为了评估它们对这种知识的理解，我们引入了WorldCuisines，这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括跨30种语言和方言的文字-图像数据集，涵盖了9种语言家族，包含超过100万个数据点，使其成为迄今为止最大的多文化VQA基准。它包括识别菜品名称及其来源的任务。我们提供了两种规模的评估数据集（12k和60k实例）以及一个包含100万个实例的训练数据集。我们的研究发现，虽然VLMs在正确的位置上下文中表现更好，但它们在对抗性上下文以及预测特定区域的菜系和语言方面遇到困难。为支持未来的研究，我们发布了包含标注的食品条目和图像的知识库，以及VQA数据。

查看原文下载 PDF