LLM2D

摘要

arXiv:2503.13162v2 宣布类型: replace-cross 摘要: 我们考虑在建模不准确情况下模仿学习的问题：在这种情况下，学习者基本上无法在所有地方复制专家的行为。这在实际操作中通常是真实的，由于机器人和人类在观察空间和动作空间表达能力上的差异（例如，机器人和人类在感知或形态上的差异）。考虑到学习者在错配设置下不可避免会出错，与环境的交互是根本上必要的，以找出哪些错误特别昂贵并导致累积错误。然而，考虑到交互固有的计算成本和安全问题，我们希望尽可能减少交互次数，同时确保我们已经学习到一个强大的策略。因此，先前的工作提出了一种高效的逆强化学习算法的变体，这些算法仅在可实现性设置中具有强保证时执行一种高效的局部搜索程序。我们首先证明，在我们称之为奖励无偏的策略完备性这一新颖的结构条件下，这类基于局部搜索的逆强化学习算法能够避免累积错误。然后我们考虑了首次进行局部搜索的地点，鉴于学习者在错配设置下可能无法如专家一样“走钢丝”。我们证明，在错配设置中，扩展用于执行局部搜索的状态集是有益的，包括学习者可以实际玩好的策略所能到达的状态。然后我们实验性地研究了各种错配来源以及离线数据如何有效扩展执行局部搜索的地点。