摘要
arXiv:2504.10390v1 声称类型: 交叉
摘要:在高维控制和环境不确定性的影响下,在复杂地形上实现稳健的移动仍然是一个挑战。本文提出了一种基于教师-学生范式的教师先验框架,结合模仿和辅助任务学习以提高学习效率和泛化能力。与传统依赖于基于编码器的状态嵌入的范式不同,我们的框架分离了网络设计,简化了策略网络的部署。首先使用特权信息训练高性能的教师策略,以获得可泛化的动作技能。教师的动作分布通过生成对抗机制转移到学生策略中,该学生策略仅依赖于嘈杂的本体感受数据,以缓解由分布偏移引起的性能下降。此外,辅助任务学习增强了学生策略的特征表示,加快了收敛速度并提高了对不同地形的适应性。该框架在人形机器人上进行了验证,显示在动态地形上移动稳定性有了显著提高,并且开发成本显著降低。这项工作为在人形机器人中部署稳健的移动策略提供了实际解决方案。