摘要
大型语言模型已在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于大型语言模型的方法……
相机附近但图像中不可见的对象能否被检测到?本研究引入了 2D、2.5D 和 3D 未观测对象检测的新任务,用于预测被遮挡或位于图像帧外的附近对象的位置。我们调整了几种最先进的预训练生成模型来解决此任务,包括 2D 和 3D 扩散模型以及视觉语言模型,并表明它们可用于推断未直接观察到的对象的存在。为了对该任务进行基准测试,我们提出了一套能够捕捉性能不同方面的指标。我们在 RealEstate10k 和 NYU Depth v2 数据集的室内场景上的实证评估结果表明,生成模型可用于未观测对象检测任务。