LLM2D

摘要

arXiv:2504.06538v1 类型: cross 摘要: 我们介绍了OPAL（操作物理代理与语言），这是一种新颖的视觉-语言-行动架构，它通过拓扑约束引入了流匹配方法，用于机器人控制。为此，我们进一步引入了拓扑注意力。我们的方法将行动序列建模为具有非平凡约束的拓扑结构表示。实验结果表明，我们的OPAL在10项复杂操作任务中表现出色，优于以往的方法，包括Octo、OpenVLA和${\pi}$0。我们的架构在无需特定任务微调的情况下实现了显著的零样本性能改进，并将推理计算需求减少了42%。我们拓扑方法提供的理论保证使得长期行动序列更加连贯。我们的结果突显了通过从基本物理定律中推导来限制机器人学习问题搜索空间的潜力，并展示了如何使用拓扑注意力将因果理解嵌入到变压器架构中。