LLM2D
JMMMU:一个用于文化感知评估的日本大型多学科多模态理解基准
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
作者: Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Kazuki Egashira, Jeonghun Baek, Xiang Yue, Graham Neubig, Kiyoharu Aizawa
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.17250v1

摘要

加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。本文介绍了 JMMMU(日语 MMMU),这是首个基于日本文化背景,用于评估 LMM 在专家级任务上的大型日语基准。为了促进全面的文化感知评估,JMMMU 包含两个互补的子集:(i) 文化无关 (CA) 子集,其中选择与文化无关的主题(例如,数学)并将其翻译成日语,从而能够与英语对应的 MMMU 进行一对一的比较;(ii) 文化特定 (CS) 子集,包含反映日本文化背景的新创建的主题。使用 CA 子集,我们观察到许多 LMM 在日语评估中的性能下降,这完全归因于语言差异。使用 CS 子集,我们揭示了它们对日本文化的理解不足。此外,通过结合这两个子集,我们发现一些 LMM 在 CA 子集上表现良好,但在 CS 子集上表现不佳,这暴露出对日语的理解肤浅,缺乏对文化理解的深度。我们希望这项工作不仅有助于提高日语 LMM 的性能,而且可以作为创建用于多语言 LMM 开发的高标准、文化多样化基准的指导方针。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。