LLM2D

摘要

arXiv:2410.05869v4 任务类型: replace-cross 摘要: 在图像中看不见但位于相机附近的目标物是否可以检测到？本研究介绍了新的二维、二维半和三维未观察到物体检测任务，用于预测被遮挡或位于图像帧外的附近物体的位置。我们调整了几种最新的预训练生成模型来解决这一任务，包括二维和三维扩散模型以及视觉-语言模型，并展示了它们可以用于推断未直接观测到的物体的存在。为了评估这一任务，我们提出了一组能够捕捉不同方面性能的度量标准。我们在RealEstate10k和NYU Depth v2数据集的室内场景上的实验评估表明，这些结果激发了使用生成模型进行未观察到物体检测任务的应用。