LLM2D

摘要

我们能否检测图像中不可见的物体？本研究引入了二维和三维未观察物体检测的新任务，用于预测被遮挡或位于图像框架外的物体的定位。我们对几种最先进的预训练生成模型进行了调整以解决此任务，包括二维和三维扩散模型以及视觉-语言模型，并表明它们可用于推断未直接观察到的物体的存在。为了对该任务进行基准测试，我们提出了一套度量标准，以捕捉性能的不同方面。我们对来自 RealEstate10k 数据集的室内场景（使用 COCO 物体类别）进行的实证评估表明，结果证明了在未观察物体检测任务中使用生成模型的合理性。目前的工作为视觉搜索和概率规划等引人注目的应用迈出了有希望的一步，这些应用可以利用物体检测，而不仅仅局限于直接观察到的内容。