LLM2D
基于时空提示:以关键帧为导向的零样本时空推理与即用型多模态大型语言模型
SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models
作者: Shun Taguchi, Hideki Deguchi, Takumi Hamazaki, Hiroyuki Sakai
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04911v1

摘要

arXiv:2505.04911v1 宣告类型: cross 摘要: 本研究介绍了SpatialPrompting,这是一个新颖的框架,利用现成的多模态大语言模型的新兴推理能力,在三维(3D)环境中实现零样本空间推理。与现有方法依赖于昂贵的3D特定微调和专门的3D输入(如点云或体素特征)不同,SpatialPrompting 使用基于关键帧的提示生成策略。该框架使用诸如视觉-语言相似性、马氏距离、视场和图像锐度等指标,从图像序列中选择多样且信息丰富的关键帧,然后将其与相应的相机姿态数据结合,以有效地抽象空间关系并推断复杂的3D结构。所提出的框架不仅建立了一种利用直观的视觉和位置线索进行灵活空间推理的新范式,而且在ScanQA和SQA3D等基准数据集的各种指标上实现了最先进的零样本性能。所提出的方法有效地消除了对专门3D输入和微调的需要,提供了一种与传统方法相比更简单且更具可扩展性的替代方案。