LLM2D

摘要

机器学习领域的最新进展为移动机器人提供了新的方式来获得先进的导航能力。然而，这些基于学习的方法也带来了一个问题，即学习到的导航行为可能与人们的意图和偏好不一致，这个问题被称为价值错位。为了减轻这种风险，本论文旨在回答以下问题：“我们如何利用机器学习方法使自主移动机器人的导航行为与人类的意图和偏好保持一致？” 首先，本论文通过引入一种新的方法来学习导航行为，该方法通过模仿人类提供的预期导航任务的演示来学习导航行为，来回答这个问题。这一贡献使移动机器人能够通过模仿获得自主视觉导航能力，使用一种新颖的目标函数，该函数鼓励代理与人类的导航目标保持一致，并对错位进行惩罚。其次，本论文介绍了两种算法，通过以自监督的方式学习视觉地形感知，来增强移动机器人的地形感知越野导航能力。这一贡献使移动机器人能够尊重人类操作员在城市室外环境中导航不同地形的偏好，同时通过利用多模态表示将这些偏好推断到视觉上新颖的地形。最后，在机器人导航人类居住环境的背景下，本论文介绍了一个数据集和一个算法，用于在室内和室外环境中以社会合规的方式进行机器人导航。总之，本论文的贡献在解决自主导航中的价值错位问题方面迈出了重要的一步，使移动机器人能够以与人类意图和偏好一致的目标进行自主导航。