LLM2D

摘要

视觉-语言导航（VLN）是嵌入式智能的一个关键领域，要求代理基于自然语言指令在3D环境中导航。传统的VLN研究主要集中在改善环境理解和决策准确性。然而，由于训练数据多样性有限，这些方法在代理部署到新环境时往往表现出显著的性能差距。扩展数据集以涵盖更广泛的环境既不切实际又成本高昂。我们提出了视觉-语言导航的持续学习（VLNCL）范式来解决这一挑战。在这个范式中，代理逐步学习新的环境，同时保留先前获得的知识。VLNCL使代理能够维护环境记忆并提取相关知识，从而在快速适应新环境的同时保留现有信息。我们引入了一种新的双回路场景重放方法（Dual-SR），该方法受到大脑记忆重放机制的启发，并与VLN代理集成。这种方法有助于巩固过去的经验，增强新任务的泛化能力。通过利用多场景记忆缓冲区，代理高效地组织和重放任务记忆，从而增强其快速适应新环境的能力并减轻灾难性遗忘。我们的工作开创了VLN代理的持续学习，引入了一种新的实验设置和评估指标。我们通过广泛评估展示了我们方法的有效性，并为VLNCL范式建立了基准。与现有的持续学习和VLN方法的比较实验显示出显著的改进，在持续学习能力方面达到了最先进的性能，突显了我们方法在实现快速适应同时保留先前知识方面的潜力。