LLM2D

摘要

arXiv:2408.17355v4 动作分块类型: 替换-交叉摘要: 在无需中间重规划的情况下预测和执行一系列动作，即动作分块，在从人类示范中学习机器人的领域中越来越受到重视。然而，它对学习到的策略的效果仍然存在不一致性：一些研究发现它对于获得高质量的结果至关重要，而另一些研究则观察到性能下降。在本文中，我们首先剖析了动作分块如何影响学习者与示范者之间的差异。我们发现，动作分块使得学习者能够更好地捕捉示范中的时间依赖性，但代价是减少了对意外状态的反应。为了解决这种权衡，我们提出了双向解码（BID），这是一种测试时的推理算法，它将动作分块与闭环适应结合起来。在每个时间步，BID 会采样多个候选预测，并基于两个标准来选择最优解：（i）向后连贯性，它偏向与先前决策相匹配的样本；（ii）向前对比性，它寻求为未来计划具有高似然性的样本。通过在和跨动作分块内耦合决策，BID 促进了长期一致性和短期反应性。实验结果显示，我们的方法在七个模拟基准测试和两个真实世界任务中提升了两种最先进的生成策略的性能。代码和视频可在 https://bid-robot.github.io 获得。