LLM2D

摘要

arXiv:2505.08548v1 语义类型: cross 摘要：在机器人操作中实现泛化仍然是一个关键性的挑战，尤其对于未见过的场景和新型任务而言。当前的 Vision-Language-Action (VLA) 模型虽然基于通用的 Vision-Language 模型 (VLMs)，但由于实体数据集中普遍存在的稀缺性和异构性，仍无法实现稳健的零样本性能。为了解决这些问题，我们提出了 FSD (From Seeing to Doing)，一种新颖的视觉语言模型，通过空间关系推理生成中间表示，为机器人操作提供精细的指导。我们的方法结合了分层数据管道进行训练，并采用自我一致性机制，将空间坐标与视觉信号对齐。通过广泛的实验，我们全面验证了 FSD 在“看”和“做”方面的能力，在 8 个基准测试中均实现了出色的空间推理和实体引用能力，并在我们提出的更具挑战性的基准测试 VABench 上也表现出色。我们还验证了在机器人操作中的零样本能力，在 SimplerEnv 和真实机器人设置中，FSD 的性能显著优于基线方法。实验结果表明，在 SimplerEnv 中，FSD 的成功率为 54.1%，在 8 个真实任务中的成功率为 72%，超过了最强基线 30%。