摘要
arXiv:2504.12299v1 宣告类型: 新
摘要:模仿学习是一种利用专家知识训练代理的强大工具,复制给定轨迹是其中必不可少的一部分。在复杂的环境中,比如现代3D视频游戏,分布偏移和随机性需要使用超出简单动作重播的稳健方法。在本研究中,我们使用不同编码器和策略头部应用逆动力学模型(IDM),在现代3D视频游戏——《边缘出血》中进行轨迹跟随。此外,我们还调查了几种未来对齐策略,以解决由逍遥不确定性及其代理的不完善性引起的分布偏移。我们测量了参考轨迹和代理轨迹之间的轨迹偏差距离以及第一个显著偏差点,并表明最佳配置取决于所选择的设置。我们的结果表明,在多样数据设置下,采用从零开始训练的编码器和GPT风格策略头部表现最佳;在低数据条件下,使用DINOv2编码器和GPT风格策略头部的结果最好;在多样数据设置下预先训练并在特定行为设置下微调的GPT风格和MLP风格策略头部具有相似的表现。