摘要
arXiv:2502.05568v1 通告类型: 交叉
摘要: 在这篇综述中,我们系统分析了用于适应低资源(LR)语言的大规模多模态模型(LMMs)的技术,涵盖了从视觉增强和数据创建到跨模态转移和融合策略的各种方法。通过对75种LR语言的106项研究进行综合分析,我们识别出研究人员在处理有限数据和计算资源挑战时的关键模式。我们发现视觉信息往往在提高LR设置下模型性能中起到关键作用,但在幻觉缓解和计算效率等方面仍面临重大挑战。我们旨在为研究人员提供当前方法及其在使LMMs更易为LR(研究较少)语言使用者使用方面所面临挑战的清晰理解。我们还提供了一个开源库:https://github.com/marianlupascu/LMM4LRL-Survey。