摘要
arXiv:2505.05288v1 宣传类型: cross
摘要: 我们引入了语言引导的对象摆放新任务——在真实3D场景中。我们的模型会获得一个3D场景的点云、一个3D资源和一个广泛描述3D资源应放置位置的文本提示。任务是找到一个符合提示的有效放置方式。与其他3D场景中的语言引导定位任务(如语义化)相比,这个任务有特定的挑战:它具有多重正确的解决方案,且需要对3D几何关系和自由空间进行推理。我们通过提出一个新的基准和评估协议来开创这一任务。我们还引入了一个新的数据集,用于在该任务上训练3D大语言模型,以及首个非平凡的基线方法。我们认为,这一具有挑战性的任务和我们的新基准可能会成为评估和比较通用3D大语言模型的一系列基准之一。