LLM2D

摘要

从一组专家轨迹中恢复多种不同的策略是模仿学习中的一个重要研究课题。在确定轨迹的潜在风格后，以往的多种策略恢复方法通常采用以潜在风格为条件的简单行为克隆学习目标，对轨迹中的每个状态-动作对给予同等的重要性。基于在许多场景中，行为风格通常只与状态-动作对的子集高度相关这一观察结果，本文提出了一种新的原理性方法来恢复多种策略。具体来说，在推断或分配轨迹的潜在风格后，我们通过结合基于点互信息的加权机制，增强了简单的行为克隆。这种额外的加权反映了每个状态-动作对对学习风格的贡献的重要性，从而使我们的方法能够专注于最能代表该风格的状态-动作对。我们为新的目标提供了理论依据，大量的实证评估证实了我们的方法在从专家数据中恢复多种策略方面的有效性。