摘要
arXiv:2502.02867v2 宣告类型: replace-cross
摘要:模仿学习(IL)使代理能够模仿专家行为而无需奖励信号,但在高维、嘈杂和不完整视觉观察的跨域场景中面临着挑战。为了应对这一挑战,我们提出了域不变逐帧特征提取用于模仿学习(DIFF-IL),这是一种新颖的IL方法,可以从单独的帧中提取域不变特征,并将这些特征适应成序列,以隔离和复制专家行为。我们还引入了一种逐帧时间标注技术,通过时间步长分割专家行为,并根据时间上下文分配奖励,从而增强任务性能。在多种视觉环境中的实验表明,DIFF-IL在处理复杂视觉任务方面具有有效性。