LLM2D

摘要

从示范中学习（LfD）是一种用于训练策略的实用范式，这些策略可以解决涉及复杂运动的任务。在实践中，LfD 的成功应用需要克服策略执行过程中的误差累积，即由于误差随时间累积而导致的漂移问题，以及随之而来的非分布行为。现有的工作试图通过扩展数据收集、通过人机交互校正策略错误、时间集成策略预测或通过学习动态系统模型的参数来解决这个问题。在这项工作中，我们提出并验证了一种克服这个问题的替代方法。受储层计算的启发，我们开发了一种新的神经网络层，该层包含一个具有可调动态特性的固定非线性动态系统。我们使用 LASA 人类手写数据集验证了我们的神经网络层在复制人类手写动作任务中的有效性。通过实证实验，我们证明将我们的层纳入现有的神经网络架构可以解决 LfD 中的误差累积问题。此外，我们对现有方法进行了比较评估，包括策略预测的时间集成和回声状态网络 (ESNs) 实现。我们发现，我们的方法在手写任务中产生了更高的策略精度和鲁棒性，同时也能推广到多个动力学机制，并保持有竞争力的延迟分数。