LLM2D
多模态适应与泛化的进步:从传统方法到基础模型
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models
作者: Hao Dong, Moru Liu, Kaiyang Zhou, Eleni Chatzi, Juho Kannala, Cyrill Stachniss, Olga Fink
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.18592v3

摘要

arXiv:2501.18592v3 展示类型: 替换-交叉 摘要:在现实世界场景中,实现领域适应和泛化面临着重大挑战,因为模型必须适应或跨未知目标分布进行泛化。将这些能力扩展到未见过的多模态分布,即多模态领域的适应和泛化,由于不同模态的独特特征,更是增加了难度。近年来,已经在各个领域取得了显著进展,从动作识别到语义分割。此外,大型预训练多模态基础模型的出现,如CLIP,激发了许多利用这些模型提高适应性和泛化性能或将其适配到下游任务的研究工作。本文综述了从传统方法到基础模型的最新进展,涵盖如下内容:(1)多模态领域适应;(2)多模态测试时适应;(3)多模态领域泛化;(4)借助多模态基础模型的领域适应和泛化;以及(5)多模态基础模型的适配。对于每个主题,我们正式定义问题并全面回顾现有方法。另外,我们分析相关的数据集和应用,强调存在的挑战并指出潜在的未来研究方向。我们维护一个活跃的仓库,其中包含最新的文献,网址为 https://github.com/donghao51/Awesome-Multimodal-Adaptation。