摘要
arXiv:2502.00094v2 宣布类型: replace-cross
摘要:在大规模语言模型(LLMs)及其演进为大规模多模态模型(LMMs)的快速发展中,英语和中文等高资源语言取得了显著进展。虽然阿拉伯语LLMs已经取得了显著的进展,但阿拉伯语LMMs仍然鲜有人涉足,通常仅聚焦于语言和视觉理解的少数具体方面。为填补这一空白,我们提出了AIN(阿拉伯包容性多模态模型),旨在全面胜任各种领域。AIN 是一种英阿双语LMM,能够在英语和阿拉伯语上表现出色,利用精心构建的360万个高质量的阿拉伯-英语多模态数据样本。AIN 在阿拉伯语方面表现出最先进的性能,同时在英语语言的视觉能力方面也表现出色。在近期包括多幅图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害及基于遥感的土地利用理解在内的38个子领域的CAMEL-Bench基准测试中,我们的AIN 在7B模型上表现出更强的能力,平均在8个领域和38个子领域中,绝对提升了3.4%的GPT-4o性能。AIN 的优越能力使其成为了增强阿拉伯语使用者在各种应用中使用的先进多模态生成AI工具的重要一步。