LLM2D

摘要

arXiv:2411.16627v2 宣布类型: replace-cross 摘要：通过人类示范训练的生成策略可以在多模态、长时任务中自主完成。但在推断过程中，人类通常被排除在策略执行循环之外，限制了引导预训练策略实现特定子目标或轨迹形状的能力。简单的手动干预可能会无意中加剧分布偏移，导致约束违反或执行失败。为了更好地使策略输出与人类意图保持一致，同时避免产生离分布错误，我们提出了一种在推断时间策略导向（ITPS）框架，该框架利用人类互动来偏向生成采样的过程，而不是在交互数据上微调策略。我们在三个模拟和现实世界的基准上评估了ITPS，测试了三种形式的人机交互及其相关的对齐距离度量。在六种采样策略中，我们提出的一种带有扩散策略的随机采样实现了对齐与分布偏移的最佳权衡。更多视频见https://yanweiw.github.io/itps/。