LLM2D

摘要

在交互式模仿学习（IL）中，不确定性量化提供了一种方法，使学习者（即机器人）能够通过在线主动寻求专家的额外反馈（即人类）来应对部署过程中遇到的分布偏移。先前的工作使用集成差异或蒙特卡罗 dropout 等机制来量化黑盒 IL 策略的不确定性；然而，当面临部署时分布偏移时，这些方法会导致过度自信的估计。相反，我们认为我们需要不确定性量化算法，这些算法可以利用部署时间收到的专家人类反馈来在线调整机器人的不确定性。为了解决这个问题，我们借鉴了在线一致预测，这是一种无需分布的在线构建预测区间的方法，前提是有一系列真实标签。然而，在交互式 IL 设置中，人类标签是间歇性的。因此，从一致预测的角度来看，我们引入了一种称为间歇分位数跟踪（IQT）的新型不确定性量化算法，该算法利用间歇标签的概率模型，保持渐近覆盖保证，并在经验上实现所需的覆盖水平。从交互式 IL 角度来看，我们开发了 ConformalDAgger，这是一种新方法，其中机器人使用 IQT 校准的预测区间作为部署时不确定性的可靠度量，以主动查询更多专家反馈。我们将 ConformalDAgger 与先前的不确定性感知 DAgger 方法进行比较，在这些方法中，由于专家策略的变化，分布偏移（存在或不存在）。我们发现，在 7DOF 机器人操纵器上的模拟和硬件部署中，ConformalDAgger 在专家发生变化时检测到高不确定性，并且与基线相比增加了干预次数，从而使机器人能够更快地学习新行为。