LLM2D

摘要

加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。本文介绍了 JMMMU（日语 MMMU），这是首个基于日本文化背景，用于评估 LMM 在专家级任务上的大型日语基准。为了促进全面的文化感知评估，JMMMU 包含两个互补的子集：(i) 文化无关 (CA) 子集，其中选择与文化无关的主题（例如，数学）并将其翻译成日语，从而能够与英语对应的 MMMU 进行一对一的比较；(ii) 文化特定 (CS) 子集，包含反映日本文化背景的新创建的主题。使用 CA 子集，我们观察到许多 LMM 在日语评估中的性能下降，这完全归因于语言差异。使用 CS 子集，我们揭示了它们对日本文化的理解不足。此外，通过结合这两个子集，我们发现一些 LMM 在 CA 子集上表现良好，但在 CS 子集上表现不佳，这暴露出对日语的理解肤浅，缺乏对文化理解的深度。我们希望这项工作不仅有助于提高日语 LMM 的性能，而且可以作为创建用于多语言 LMM 开发的高标准、文化多样化基准的指导方针。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。