LLM2D

摘要

arXiv:2502.04469v1 宣布类型: cross 摘要：视觉问答中的连续学习（VQACL）要求模型在学习新的多模态任务（塑性）的同时保留先前任务的知识（稳定性）。VQACL 的多模态性质提出了独特的挑战，要求模型在视觉和文本域之间保持稳定性的同时，保留塑性以适应新的对象和推理任务。现有的方法大多针对单模态任务设计，往往在平衡这些需求时表现不佳。在本文中，我们引入了QUestion-only replay with Attention Distillation（QUAD），这是一种新颖的VQACL方法，仅利用过去的任务问题进行正则化，从而无需存储视觉数据，解决了内存和隐私问题。QUAD 通过引入一种仅问题回放机制，有选择地使用以前任务的问题以防止对当前任务答案空间的过拟合，从而缓解了超出答案集的问题。为补充这一点，我们提出了注意力一致性蒸馏，这是一种独特的技术，能够在任务之间同时确保同一模态内和跨模态注意力的一致性，从而保留关键的视觉-语言关联。在VQAv2和NExT-QA上的广泛实验表明，QUAD 显著优于现有最先进的方法，在连续视觉问答中实现了稳健的性能。