LLM2D

摘要

arXiv:2409.18768v3 宣告类型: 更换摘要：学习从演示(LfD)是一种用于训练解决涉及复杂运动任务的策略的有效范式，例如机器人操作中遇到的任务。实际上，LfD 成功应用的关键在于解决策略执行过程中错误累积的问题，即随着时间推移错误累积而导致的漂移以及由此引发的离分布行为。现有工作通过扩大数据收集规模、在人机交互过程中纠正策略错误、通过时间序预测集成策略预测或通过学习具有收敛保证的动力学系统模型等方式来解决这个问题。在这项工作中，我们提出并验证了一种克服这一问题的替代方法。受水库计算的启发，我们开发了一种循环神经网络层，该层包含一个固定的动力学系统和可调的动力学特性，用于建模时间动态。我们在使用LASA人类书写数据集的书写运动再现任务上验证了我们神经网络层的有效性。通过实验证明，将我们的层集成到现有的神经网络架构中，可以解决LfD中累积错误的问题。此外，我们还对现有的各种方法进行了比较评估，包括时间序策略预测集成和回声状态网络(ESN)实现。我们发现，在书写任务中，我们的方法在策略精度和鲁棒性方面优于现有方法，并且还能适应多种动力学模式，同时保持竞争性的延迟得分。