LLM2D

摘要

复杂视觉物体的结构理解是人工智能领域一个尚未解决的重要问题。为了研究这个问题，我们针对最近提出的 LTRON 中的 Break-and-Make 问题开发了一种新的技术，该问题要求智能体必须学会使用单个交互式会话来构建以前从未见过的乐高积木，以收集有关其组件及其结构的信息。我们通过构建一个名为 \textbf{\ours} 的智能体来解决这个问题，该智能体能够创建自己的视觉说明书。通过拆卸一个看不见的组件并定期保存它的图像，智能体能够创建一组说明，以便它拥有重建它所需的信息。这些说明构成了一个显式记忆，允许模型一步一步地推理组装过程，避免对长期隐式记忆的需求。这反过来又使我们能够训练比过去更大的乐高积木。为了展示这个模型的强大功能，我们发布了一个新的数据集，其中包含程序化构建的乐高车辆，平均每辆包含 31 块积木，需要超过一百步才能拆卸和重新组装。我们使用在线模仿学习训练这些模型，允许模型从自己的错误中学习。最后，我们还对 LTRON 和 Break-and-Make 问题进行了一些小的改进，以简化学习环境并提高可用性。