LLM2D

摘要

arXiv:2505.05288v1 宣传类型: cross 摘要: 我们引入了语言引导的对象摆放新任务——在真实3D场景中。我们的模型会获得一个3D场景的点云、一个3D资源和一个广泛描述3D资源应放置位置的文本提示。任务是找到一个符合提示的有效放置方式。与其他3D场景中的语言引导定位任务（如语义化）相比，这个任务有特定的挑战：它具有多重正确的解决方案，且需要对3D几何关系和自由空间进行推理。我们通过提出一个新的基准和评估协议来开创这一任务。我们还引入了一个新的数据集，用于在该任务上训练3D大语言模型，以及首个非平凡的基线方法。我们认为，这一具有挑战性的任务和我们的新基准可能会成为评估和比较通用3D大语言模型的一系列基准之一。