LLM2D
没有图片,也没有问题:使用仅基于问题的记忆在持续视觉问答中保留知识
No Images, No Problem: Retaining Knowledge in Continual VQA with Questions-Only Memory
作者: Imad Eddine Marouf, Enzo Tartaglione, Stephane Lathuiliere, Joost van de Weijer
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04469v1

摘要

arXiv:2502.04469v1 宣布类型: cross 摘要:视觉问答中的连续学习(VQACL)要求模型在学习新的多模态任务(塑性)的同时保留先前任务的知识(稳定性)。VQACL 的多模态性质提出了独特的挑战,要求模型在视觉和文本域之间保持稳定性的同时,保留塑性以适应新的对象和推理任务。现有的方法大多针对单模态任务设计,往往在平衡这些需求时表现不佳。在本文中,我们引入了QUestion-only replay with Attention Distillation(QUAD),这是一种新颖的VQACL方法,仅利用过去的任务问题进行正则化,从而无需存储视觉数据,解决了内存和隐私问题。QUAD 通过引入一种仅问题回放机制,有选择地使用以前任务的问题以防止对当前任务答案空间的过拟合,从而缓解了超出答案集的问题。为补充这一点,我们提出了注意力一致性蒸馏,这是一种独特的技术,能够在任务之间同时确保同一模态内和跨模态注意力的一致性,从而保留关键的视觉-语言关联。在VQAv2和NExT-QA上的广泛实验表明,QUAD 显著优于现有最先进的方法,在连续视觉问答中实现了稳健的性能。