LLM2D

摘要

arXiv:2503.19281v1 声明类型: cross 摘要：证明魔方定理代表了人类空间想象和逻辑推理的一个重要里程碑。传统的魔方机器人依赖于复杂的视觉系统和固定的算法，往往难以适应复杂的动态场景。为克服这一限制，我们引入了CubeRobot，这是一种为了解决3x3魔方而特制的多模态视觉-语言模型（VLM），赋予了实体代理多模态的理解和执行能力。我们使用了包含多个层级任务（总共43个子任务）的CubeCoT图像数据集，这些任务即便是人类也无法处理，涵盖了各种魔方状态。我们引入了一种双重循环的VisionCoT架构和Memory Stream，这是一种从VLM生成的规划查询中提取任务相关特征的范式，从而使CubeRobot能够独立进行规划、决策、反思和分离管理高、低层级的魔方任务。此外，在低层级魔方修复任务中，CubeRobot的准确率达到100%，与中层级任务的100%准确率相同，并在高层级任务中达到了80%的准确率。