LLM2D

摘要

arXiv:2406.08472v4 Announce Type: replace-cross 摘要：获得复杂的行為對於人工智慧代理是必不可少的，但在高維設定中學習這些行為由於龐大的搜索空間而構成了重大挑戰。傳統的強化學習（RL）需要大量人工工程來設計獎勵函數。逆強化學習（IRL）從專家示范中發現獎勵函數，但依賴於常見的迭代過程，往往計算成本高昂。模仿學習（IL）提供了一種更有效的替代方案，可以直接比較代理的行為與專家示范；然而，在高維環境中，這種直接對比往往無法提供足夠的反饋來實現有效的學習。我們介紹了RILe（强化模仿学习），这是一种结合了模仿学习和逆强化学习优势的框架，可以高效地学习稠密奖勵函数，并在高维任务中实现出色表现。RILe 使用了一种新颖的训练-学生框架：训练器学习适应性的奖勵函数，学生则使用此奖励信号模仿专家行为。随着学生的发展，训练器动态调整其指导，提供跨学习不同阶段的细腻反馈。我们的框架在直接模仿无法复制复杂行为的高维任务中生成高性能策略。我们通过在具有挑战性的机器人运动任务中验证RILe，展示了它在多种设置中显著优于现有方法，并实现了接近专家级的表现。