LLM2D

摘要

arXiv:2502.04531v1 任务类型: 多任务交叉摘要：在机器人任务中进行物体放置因其几何形状和放置配置的多样性而具有固有的挑战性。为了解决这一问题，我们提出了一种名为AnyPlace的两阶段方法，该方法完全基于合成数据训练，能够预测广泛的真实世界任务中可行的放置姿态。我们的核心洞察是，通过利用视觉语言模型（VLM）识别粗略的放置位置，我们只关注与局部放置相关的区域，这使我们能够训练低层次的放置姿态预测模型，以高效地捕捉各种放置方式。在训练过程中，我们生成了一个完全合成的数据集，其中包括在不同放置配置（插入、堆叠、悬挂）中随机生成的物体，并训练局部放置预测模型。我们在模拟中进行了广泛的评估，结果显示，我们的方法在成功率、可能的放置模式覆盖范围以及精度方面优于基线模型。在现实世界实验中，我们展示了如何直接将仅基于合成数据训练的模型应用于现实世界，其中在具有不同物体几何形状、多种放置模式以及实现精细放置的高精度场景中，我们的方法能够成功执行放置，而其他模型则难以应对。更多详情请参阅：https://any-place.github.io。