LLM2D

摘要

arXiv:2406.08805v2 公告类型: 替换-交叉摘要: 在设计奖励函数困难的情境中，示范是学习代理任务规范的有效替代方案。然而，当机器人具有复杂且不直观的形态时，在代理的动作空间中展示专家行为变得繁琐。我们考虑一个实际情境，其中代理拥有与环境先前交互的数据集，并提供仅观察到的专家示范。典型的观察学习方法通常需要学习逆动态模型或判别器作为训练的中间步骤。这些中间一步模型的错误会在下游策略学习或部署中累积。我们通过直接学习一个多步效用函数来克服这些限制，该函数量化每个动作如何影响代理与专家访问分布的偏离。利用对偶原理，我们推导出DILO（从观察中对偶模仿学习），一种算法，能够利用任意次优数据学习模仿策略，而无需专家动作。DILO将观察学习问题简化为仅学习一个参与者和一个评论者，其复杂性与普通的离线强化学习相似。这使得DILO能够优雅地扩展到高维观察，并在各方面展示出改进的性能。项目页面（代码和视频）：$\href{https://hari-sikchi.github.io/dilo/}{\text{hari-sikchi.github.io/dilo/}}$