LLM2D
视觉-语言导航的持续学习
Vision-Language Navigation with Continual Learning
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.02561v2

摘要

视觉-语言导航(VLN)是嵌入式智能的一个关键领域,要求代理基于自然语言指令在3D环境中导航。传统的VLN研究主要集中在改善环境理解和决策准确性。然而,由于训练数据多样性有限,这些方法在代理部署到新环境时往往表现出显著的性能差距。扩展数据集以涵盖更广泛的环境既不切实际又成本高昂。我们提出了视觉-语言导航的持续学习(VLNCL)范式来解决这一挑战。在这个范式中,代理逐步学习新的环境,同时保留先前获得的知识。VLNCL使代理能够维护环境记忆并提取相关知识,从而在快速适应新环境的同时保留现有信息。我们引入了一种新的双回路场景重放方法(Dual-SR),该方法受到大脑记忆重放机制的启发,并与VLN代理集成。这种方法有助于巩固过去的经验,增强新任务的泛化能力。通过利用多场景记忆缓冲区,代理高效地组织和重放任务记忆,从而增强其快速适应新环境的能力并减轻灾难性遗忘。我们的工作开创了VLN代理的持续学习,引入了一种新的实验设置和评估指标。我们通过广泛评估展示了我们方法的有效性,并为VLNCL范式建立了基准。与现有的持续学习和VLN方法的比较实验显示出显著的改进,在持续学习能力方面达到了最先进的性能,突显了我们方法在实现快速适应同时保留先前知识方面的潜力。