LLM2D

摘要

arXiv:2504.18160v1 宣告类型: cross 摘要: 仿真实验学习（IL）技术旨在复制特定任务中的人类行为。尽管由于其有效性与效率，仿真实验学习已经受到了重视，但传统的方法通常专注于专家收集的数据集，以生成单一高效的策略。最近，已经提出了扩展方法，以处理具有多种行为的数据集，主要关注在转换级别上学习多样策略或在轨迹级别上进行熵最大化的操作。尽管这些方法可能导致多种行为，但它们可能不足以重现示范的实际多样性，或者无法实现受控轨迹生成。为克服这些缺点，我们提出了一种基于两个关键特征的方法：a) 时间一致性，确保在整个episode中的一致行为，而不仅仅是在转换级别上；b) 可控性，通过构建行为的潜在空间，允许用户根据需求选择性地激活特定行为。我们在一系列多样的任务和环境中将我们的方法与最先进的方法进行了比较。项目页面: https://mathieu-petitbois.github.io/projects/swr/