摘要
arXiv:2502.04469v1 宣布类型: cross
摘要:视觉问答中的连续学习(VQACL)要求模型在学习新的多模态任务(塑性)的同时保留先前任务的知识(稳定性)。VQACL 的多模态性质提出了独特的挑战,要求模型在视觉和文本域之间保持稳定性的同时,保留塑性以适应新的对象和推理任务。现有的方法大多针对单模态任务设计,往往在平衡这些需求时表现不佳。在本文中,我们引入了QUestion-only replay with Attention Distillation(QUAD),这是一种新颖的VQACL方法,仅利用过去的任务问题进行正则化,从而无需存储视觉数据,解决了内存和隐私问题。QUAD 通过引入一种仅问题回放机制,有选择地使用以前任务的问题以防止对当前任务答案空间的过拟合,从而缓解了超出答案集的问题。为补充这一点,我们提出了注意力一致性蒸馏,这是一种独特的技术,能够在任务之间同时确保同一模态内和跨模态注意力的一致性,从而保留关键的视觉-语言关联。在VQAv2和NExT-QA上的广泛实验表明,QUAD 显著优于现有最先进的方法,在连续视觉问答中实现了稳健的性能。