LLM2D

摘要

环境的不确定性一直是执行现实世界机器人任务时难以处理的特征。这是因为不确定性会产生无法通过手动脚本覆盖的意外观测。基于学习的机器人控制方法是一种很有前景的方法，可以针对未知情况生成灵活的运动，但由于其确定性，在不确定性下仍然容易受到影响。为了在这样的条件下自适应地执行目标任务，机器人控制模型必须能够准确地理解可能的不确定性，并探索性地推导出最小化这种不确定性的最佳动作。本文扩展了一种现有的基于预测学习的机器人控制方法，该方法使用动态内部模拟进行预见预测。预见模块通过对多个可能的未来进行采样来细化模型的隐藏状态，并用导致未来不确定性较低的那个状态替换。该模型的自适应性在开门任务中进行了评估。门可以通过推、拉或滑动打开，但机器人无法直观地分辨哪种方式，需要在运行中进行适应。结果表明，所提出的模型通过与门的交互自适应地改变其运动，而传统方法未能稳定地改变。模型在 RNN 隐藏状态的李雅普诺夫指数上进行了分析，这些指数反映了任务执行过程中每个时间步长的可能发散。结果表明，预见模块使模型倾向于考虑未来的后果，这导致在机器人控制器的策略中嵌入不确定性，而不是在结果观测中。这对实现自适应行为是有益的，这些行为表明在探索过程中推导出不同的运动。