LLM2D
世界美食:全球 cuisine 多语言多文化视觉问答大规模基准
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines
作者: Genta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2410.12705v5

摘要

arXiv:2410.12705v5 宣告类型: replace-cross 摘要:视觉语言模型(VLMs)在处理文化特定知识方面经常遇到困难,尤其是在英语之外的语言以及不足代表的文化背景中。为了评估它们对这些知识的理解,我们引入了WorldCuisines,这是一个大规模的多语言和多文化视觉接地语言理解基准。该基准包括30种语言和方言的文本-图像配对视觉问答(VQA)数据集,涵盖了9个语言家族,拥有超过100万个数据点,使其成为迄今为止最大的多文化VQA基准。该基准包含识别菜品名称及其来源的任务。我们提供了两个规模的评估数据集(分别为12k和60k实例)以及一个训练数据集(100万个实例)。我们的研究表明,虽然视觉语言模型在正确的地理位置上下文中表现更好,但在对抗性上下文和预测特定区域性菜肴和语言方面仍然存在问题。为了支持未来的研究,我们发布了包含标注食品条目和图像的知识库,与VQA数据一起提供。