摘要
arXiv:2503.21910v1 类别: cross
摘要:我们介绍了JEEM,这是一个基准测试,旨在评估视觉-语言模型(VLMs)在四个阿拉伯国家的视觉理解能力:约旦、阿拉伯联合酋长国、埃及和摩洛哥。JEEM 包括图片 Captioning 和视觉问题回答的任务,并具备丰富文化和地区多样性的内容。该数据集旨在评估 VLMs 在不同方言上的泛化能力以及在视觉情境中准确解读文化元素的能力。在对五种流行的开源阿拉伯 VLMs 和 GPT-4V 的评估中,我们发现阿拉伯 VLMs 一贯表现不佳,他们在视觉理解和方言生成方面都存在困难。虽然 GPT-4V 在此次比较中表现最佳,但该模型的语言能力在不同方言中有所差异,其视觉理解能力也落后于其他模型。这凸显了需要更包容的模型以及文化多样性评估范式的价值。