摘要
arXiv:2502.00094v1 类型: cross
摘要: 随着大型语言模型(LLMs)的迅速进步并演变为大型多模态模型(LMMs),高资源语言如英语和汉语取得了显著进展。虽然阿拉伯语LLMs已有显著进展,但阿拉伯语LMMs仍然很大程度上未被探索,常常仅集中在语言和视觉理解的少数特定方面。为弥补这一差距,我们引入了AIN(阿拉伯包容性多模态模型),旨在在多元领域中表现出色。AIN 是一种双语(英语-阿拉伯语)LMM,旨在在英语和阿拉伯语上表现出色,利用了精心构建的360万高质量阿拉伯语-英语多模态数据样本。AIN 在阿拉伯语方面表现出最先进的性能,同时在英语语言的视觉能力方面也表现出色。在包含38个子领域的近期CAMEL-Bench基准测试中,其中包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物疾病和基于遥感的土地利用理解,我们的AIN在7B模型上表现出色,各领域和38个子领域的绝对改进率为3.4%。AIN 的优越能力使其成为向阿拉伯语使用者提供高级多模态生成AI工具的有力一步,适用于多样化的应用。