LLM2D

摘要

在模拟环境中进行深度强化学习（DRL）通常会导致脆弱且不现实的学习结果。为了推动智能体朝着更理想的解决方案发展，可以通过奖励塑造、专家数据或运动原语等方式将先验信息注入学习过程。我们提出了一种用于机器人学习的附加归纳偏差：从专家演示中学习的潜在动作作为动作空间中的先验知识。我们证明，这些动作先验知识可以通过简单的自编码器仅从单个开环步态周期中学习。使用这些潜在的动作先验知识结合 DRL 中用于模仿的已建立风格奖励，可以实现超越专家演示级别的性能，并导致更理想的步态。此外，动作先验知识显著提高了迁移任务的性能，甚至可以实现更高的目标速度的步态转换。视频和代码可在以下网站获得：https://sites.google.com/view/latent-action-priors。