LLM2D
多模态适应与泛化的发展:从传统方法到基础模型
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models
作者: Hao Dong, Moru Liu, Kaiyang Zhou, Eleni Chatzi, Juho Kannala, Cyrill Stachniss, Olga Fink
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.18592v2

摘要

arXiv:2501.18592v2 宣告类型: replace-cross 摘要:在现实世界的情景中,实现领域适应和泛化提出了重大的挑战,因为模型必须适应或泛化到未知的目标分布。将这些能力扩展到未见过的多模态分布,即多模态领域适应和泛化,由于不同模态的独特特征更具挑战性。近年来取得了显著进展,应用范围从动作识别到语义分割。此外,最近大规模预训练多模态基础模型的出现,如CLIP,激发了利用这些模型增强适应性和泛化性能或将其适应于下游任务的工作。这篇综述提供了从传统方法到基础模型的近期进展的首次全面综述,涵盖了以下方面:(1)多模态领域适应;(2)多模态测试时适应;(3)多模态领域泛化;(4)借助多模态基础模型的领域适应和泛化;以及(5)多模态基础模型的适应。对于每个主题,我们形式化定义了问题,并详细回顾了现有方法。此外,我们分析了相关的数据集和应用,指出了开放的挑战和潜在的未来研究方向。我们维护了一个活跃的存储库,其中包含了最新的文献,网址为 https://github.com/donghao51/Awesome-Multimodal-Adaptation。