LLM2D

摘要

强化学习（RL）在顺序决策问题中取得了巨大成功，但往往以大量的智能体-环境交互为代价。为了提高样本效率，像从专家演示中学习强化学习（RLED）这样的方法引入了外部专家演示，以促进智能体在学习过程中的探索。在实践中，这些演示通常来自人类用户，成本很高，因此通常限制在有限的数量。因此，如何选择最有利于学习的最佳人类演示集成为一个主要问题。本文提出了一种名为 EARLY（基于演示查询的逐集主动学习）的算法，该算法使学习智能体能够在基于轨迹的特征空间中生成优化的专家演示查询。基于对智能体当前策略中不确定性的轨迹级估计，EARLY 确定了基于特征的查询的优化时机和内容。通过查询逐集演示而不是孤立的状态-动作对，EARLY 改善了人类教学体验并取得了更好的学习性能。我们在三个难度不断增加的模拟导航任务中验证了我们方法的有效性。结果表明，我们的方法能够在所有三个任务中实现专家级性能，当演示由模拟预言机策略生成时，收敛速度比其他基线方法快 30% 以上。后续试点用户研究 (N=18) 的结果进一步验证了，在人类专家演示的情况下，我们的方法仍然可以保持显著更好的收敛性，同时在感知任务负载方面实现更好的用户体验，并显著减少人类时间。