LLM2D

摘要

arXiv:2502.02867v1 类型: cross 摘要：模仿学习（IL）使代理能够模仿专家行为，而无需奖励信号，但在高维、噪声大和观测不完整的跨领域场景中面临挑战。为了解决这一问题，我们提出了用于模仿学习的域不变每帧特征提取方法（DIFF-IL），这是一种新颖的IL方法，从单独的帧中提取域不变特征并将其适应为序列，以隔离和复制专家行为。我们还引入了一种帧时间标签技术，通过时间片段分隔专家行为，并在与时间上下文对齐的情况下分配奖励，从而增强任务性能。在多样化的视觉环境中进行的实验证明了DIFF-IL在处理复杂视觉任务方面的有效性。