摘要
arXiv:2501.13964v3 通知类型: 交叉替换
摘要: 增强现实(AR)通过整合虚拟内容增强了现实世界,但确保AR体验的质量、可使用性和安全性提出了重大挑战。视觉-语言模型(Vision-Language Models, VLMs)能否为自动评估AR生成的场景提供解决方案?VLMs能否为自动评估AR生成的场景提供解决方案?在本研究中,我们评估了三种目前最先进的商业VLM——GPT、Gemini和Claude——在识别和描述AR场景方面的能力。为此,我们使用了DiverseAR数据集,这是第一个专门为评估VLMs分析不同复杂度AR场景中虚拟内容的能力而设计的数据集。我们的研究结果表明,VLMs通常能够感知和描述AR场景,感知的真实正率(Truth Positive Rate, TPR)最高可达93%,描述的TPR为71%。他们在识别明显的虚拟对象(如发光的苹果)方面表现出色,但在面对无缝整合的内容(如具有真实阴影的虚拟锅)时则面临困难。我们的研究结果突出了VLMs在理解AR情景方面的强点和弱点。我们确定了影响VLM性能的关键因素,包括虚拟内容的位置、渲染质量以及物理合理性。本研究强调了VLMs作为评估AR体验质量工具的潜力。