LLM2D

摘要

arXiv:2502.02867v2 宣告类型: replace-cross 摘要：模仿学习（IL）使代理能够模仿专家行为而无需奖励信号，但在高维、嘈杂和不完整视觉观察的跨域场景中面临着挑战。为了应对这一挑战，我们提出了域不变逐帧特征提取用于模仿学习（DIFF-IL），这是一种新颖的IL方法，可以从单独的帧中提取域不变特征，并将这些特征适应成序列，以隔离和复制专家行为。我们还引入了一种逐帧时间标注技术，通过时间步长分割专家行为，并根据时间上下文分配奖励，从而增强任务性能。在多种视觉环境中的实验表明，DIFF-IL在处理复杂视觉任务方面具有有效性。