LLM2D
DOTA:视觉-语言模型的分布式测试时自适应
DOTA: Distributional Test-Time Adaptation of Vision-Language Models
作者: Zongbo Han, Jialong Yang, Junfan Li, Qinghua Hu, Qianli Xu, Mike Zheng Shou, Changqing Zhang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19375v1

摘要

视觉语言基础模型(例如 CLIP)在各种任务中表现出了非凡的性能。然而,当训练数据和测试数据之间存在显著的分布差异时,部署这些模型可能不可靠。训练无关的测试时动态适配器(TDA)是一种有希望的方法,它通过存储代表性的测试样本以指导后续样本的分类来解决这个问题。然而,TDA 只是简单地将有限数量的参考样本保存在缓存中,当通过丢弃样本更新缓存时,会导致严重的测试时灾难性遗忘。在本文中,我们提出了一种简单但有效的方法,用于分布式测试时自适应(Dota)。Dota 并非简单地记忆代表性的测试样本,而是持续估计测试样本的分布,使模型能够持续适应部署环境。然后,根据贝叶斯定理,使用估计的分布计算测试时的后验概率,以进行自适应。为了进一步增强不确定样本的可适应性,我们引入了一种新的“人机交互”范式,它识别不确定样本,收集人工反馈,并将反馈整合到 Dota 框架中。大量的实验验证了 Dota 使 CLIP 能够持续学习,与当前最先进的方法相比取得了显著的改进。