摘要
arXiv:2502.15392v1 通知类型: 新颖
摘要: 近期的多模态基础模型主要是在英语或高资源欧洲语言数据上进行训练,这限制了其在其他中低资源语言中的应用。为了解决这一限制,我们引入了Chitrarth(Chitra:图像;Artha:意义),一个包容性的视觉语言模型(VLM),专门针对10种主要印度语言中的丰富语言多样性与视觉推理。我们的模型有效地将最新的多语言大型语言模型(LLM)与视觉模块相结合,后者主要是在多语言图像文本数据上进行训练。此外,我们还引入了BharatBench,一个全面的框架,用于评估不同印度语言中的VLMs,最终推动了更加多样化和有效的AI系统的建设。我们的模型在低资源语言基准测试中获得了最佳结果,同时保持了其在英语中的效率。通过我们的研究,我们旨在为多语言-多模态能力设定新的基准,提供比现有模型显著改进,并为这一领域未来的进步奠定基础。