LLM2D

摘要

大型语言模型已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于大型语言模型的方法…… 相机附近但图像中不可见的对象能否被检测到？本研究引入了 2D、2.5D 和 3D 未观测对象检测的新任务，用于预测被遮挡或位于图像帧外的附近对象的位置。我们调整了几种最先进的预训练生成模型来解决此任务，包括 2D 和 3D 扩散模型以及视觉语言模型，并表明它们可用于推断未直接观察到的对象的存在。为了对该任务进行基准测试，我们提出了一套能够捕捉性能不同方面的指标。我们在 RealEstate10k 和 NYU Depth v2 数据集的室内场景上的实证评估结果表明，生成模型可用于未观测对象检测任务。