LLM2D

摘要

视觉和语言导航（VLN）任务中，智能体需要遵循指令到达目标位置，近年来取得了显著进展。然而，与具有预定义轨迹的离散环境导航相比，连续环境下的视觉和语言导航（VLN-CE）面临更大的挑战，因为智能体可以自由地导航到任何没有障碍物的位置，并且更容易受到视觉遮挡或盲区的干扰。最近的方法试图通过想象未来的环境来解决这个问题，无论是通过预测未来的视觉图像还是语义特征，而不是仅仅依赖于当前的观察。然而，这些基于RGB图像和特征的方法缺乏有效的导航所必需的直观的表观级信息或高级语义复杂性。为了克服这些局限性，我们引入了一种新颖的、可泛化的基于3DGS的预训练范式，称为UnitedVLN，它通过联合渲染高保真360度视觉图像和语义特征，使智能体能够更好地探索未来的环境。UnitedVLN采用两种关键方案：先搜索后查询的采样和先分离后联合的渲染，这有助于有效利用神经基元，帮助整合外观和语义信息，从而实现更稳健的导航。大量的实验表明，UnitedVLN在现有的VLN-CE基准测试中优于最先进的方法。