LLM2D

摘要

基于人类演示训练的生成策略能够自主完成多模态、长时序的任务。然而，在推理过程中，人类通常被排除在策略执行循环之外，这限制了引导预训练策略朝着特定子目标或轨迹形状（在多个预测结果中）的能力。简单的的人工干预可能会无意中加剧分布偏移，导致约束违反或执行失败。为了在不引起分布外错误的情况下更好地使策略输出与人类意图保持一致，我们提出了一种推理时策略引导 (ITPS) 框架，该框架利用人机交互来引导生成采样过程，而不是对交互数据进行策略微调。我们在三个模拟和现实世界的基准测试中评估了 ITPS，测试了三种形式的人机交互和相关的对齐距离度量。在六种采样策略中，我们提出的带有扩散策略的随机采样在对齐和分布偏移之间取得了最佳平衡。视频可在 https://yanweiw.github.io/itps/ 查看。