摘要
arXiv:2504.18160v1 宣告类型: cross
摘要: 仿真实验学习(IL)技术旨在复制特定任务中的人类行为。尽管由于其有效性与效率,仿真实验学习已经受到了重视,但传统的方 法通常专注于专家收集的数据集,以生成单一高效的策略。最近,已经提出了扩展方法,以处理具有多种行为的数据集,主要关注在转 换级别上学习多样策略或在轨迹级别上进行熵最大化的操作。尽管这些方法可能导致多种行为,但它们可能不足以重现示范的实际多样性, 或者无法实现受控轨迹生成。为克服这些缺点,我们提出了一种基于两个关键特征的方法:a) 时间一致性,确保在整个episode中的一 致行为,而不仅仅是在转换级别上;b) 可控性,通过构建行为的潜在空间,允许用户根据需求选择性地激活特定行为。我们在一系列多样 的任务和环境中将我们的方法与最先进的方法进行了比较。项目页面: https://mathieu-petitbois.github.io/projects/swr/