LLM2D

摘要

arXiv:2209.04100v3 任务类型: replace 摘要：在 recent 年里，强化学习 (RL) 和模仿学习 (IL) 在机器人的决策制定方面取得了显著进展。然而，这些方法在需要通过新的行为组合来完成的新任务中表现出明显的退化。RL 方法受奖励函数和分布移位的影响，而 IL 方法受限于专家演示，这些演示没有涵盖新任务。相比之下，人类可以利用从任务无关的经验中学到的碎片化知识轻松完成这些任务。受此观察的启发，本文提出了一种任务无关的学习方法（简称 TAL），该方法仅从任务无关的数据中学习碎片化知识以完成新任务。TAL 包括四个阶段。首先，进行任务无关的探索以从与环境的交互中收集数据。收集的数据通过知识图谱组织。其次，提出并使用收集的知识图谱数据训练动作特征提取器，以实现任务无关的碎片化知识学习。第三，设计了一个候选动作生成器，该生成器将动作特征提取器应用于新任务以生成多个候选动作集。最后，设计了一个动作提案网络，根据环境信息产生新任务中动作的概率。然后利用这些概率生成选择动作的顺序信息，从多个候选动作集选择要执行的动作以形成计划。在虚拟室内场景上的实验显示，所提出的方法比最先进的离线 RL 方法和 IL 方法高出 20% 以上。