摘要
arXiv:2505.08548v1 语义类型: cross
摘要:在机器人操作中实现泛化仍然是一个关键性的挑战,尤其对于未见过的场景和新型任务而言。当前的 Vision-Language-Action (VLA) 模型虽然基于通用的 Vision-Language 模型 (VLMs),但由于实体数据集中普遍存在的稀缺性和异构性,仍无法实现稳健的零样本性能。为了解决这些问题,我们提出了 FSD (From Seeing to Doing),一种新颖的视觉语言模型,通过空间关系推理生成中间表示,为机器人操作提供精细的指导。我们的方法结合了分层数据管道进行训练,并采用自我一致性机制,将空间坐标与视觉信号对齐。通过广泛的实验,我们全面验证了 FSD 在“看”和“做”方面的能力,在 8 个基准测试中均实现了出色的空间推理和实体引用能力,并在我们提出的更具挑战性的基准测试 VABench 上也表现出色。我们还验证了在机器人操作中的零样本能力,在 SimplerEnv 和真实机器人设置中,FSD 的性能显著优于基线方法。实验结果表明,在 SimplerEnv 中,FSD 的成功率为 54.1%,在 8 个真实任务中的成功率为 72%,超过了最强基线 30%。