LLM2D

摘要

arXiv:2502.13519v1 宣布类型: cross 摘要：双学习技术在现实世界的控制场景中，如机器人技术中已被证明非常有效。然而，这些方法不仅面临着累积误差的问题，而且还需要人类专家提供完整的路径。虽然存在一些交互式方法，其中专家监督机器人并在需要时介入，但这些扩展通常仅利用干预期间收集的数据，而忽视了非干预时间步中存在的反馈信号。在这项工作中，我们创建了一个模型来阐明在这种情况下干预是如何发生的，并展示了只需少量专家干预即可学习策略的可能性。我们的关键见解是，无论是否存在干预，都可以从专家反馈中获取有关当前状态质量以及所选动作的最优性的重要信息。我们使用各种离散和连续仿真的环境、实际的机器人操作任务以及人类被试研究评估了我们的方法。相关视频和代码可在 https://liralab.usc.edu/mile 查看。