LLM2D

摘要

从示范中学习 (LfD) 是一种用于训练策略的有效范式，这些策略可以解决涉及复杂运动的任务，例如机器人操作中遇到的任务。在实践中，LfD 的成功应用需要克服策略执行过程中的误差累积，即由于误差随时间累积而产生的漂移问题，以及由此导致的分布外行为。现有的研究试图通过扩展数据收集、通过人机交互纠正策略错误、时间集成策略预测，或通过学习具有收敛保证的动力系统模型来解决这个问题。在这项工作中，我们提出并验证了一种克服这个问题的替代方法。受储层计算的启发，我们开发了一个循环神经网络层，该层包含一个具有可调动力学特性的固定非线性动力系统，用于模拟时间动力学。我们使用 LASA 人类手写数据集验证了我们的神经网络层在重现人类手写运动任务中的有效性。通过实证实验，我们证明了将我们的层纳入现有的神经网络架构可以解决 LfD 中的累积误差问题。此外，我们还与现有方法进行了比较评估，包括策略预测的时间集成和回声状态网络 (ESN) 实现。我们发现，我们的方法在手写任务中产生了更高的策略精度和鲁棒性，同时还能够推广到多种动力学机制，并保持有竞争力的延迟得分。