LLM2D

摘要

基于学习的四足动物运动方法通常采用通用的策略架构，例如全连接多层感知器（MLP）。由于此类架构包含很少的归纳偏置，因此在实践中通常会以奖励、训练课程、模仿数据或轨迹生成器等形式加入先验知识。在自然界中，动物天生就具有先验知识，这些知识以其神经系统的架构形式存在，这种架构经进化塑造，赋予了动物先天能力和高效的学习能力。例如，马在出生几小时内就能行走，并且能够快速提高其行走能力。这种架构先验知识也可用于人工智能的 ANN 架构中。在这项工作中，我们探索了基于哺乳动物四肢和脊髓神经回路的生物启发式 ANN 架构在四足动物运动中的优势。我们的架构实现了良好的初始性能和与 MLP 相当的最终性能，同时使用了更少的数据和数量级更少的参数。我们的架构还表现出更好的任务变化泛化能力，甚至无需标准的模拟到真实世界的转换方法即可部署到物理机器人上。这项工作表明，神经回路可以为运动提供有价值的架构先验知识，并鼓励未来在其他感觉运动技能方面开展研究。