LLM2D

摘要

arXiv:2501.13964v3 通知类型: 交叉替换摘要: 增强现实(AR)通过整合虚拟内容增强了现实世界，但确保AR体验的质量、可使用性和安全性提出了重大挑战。视觉-语言模型(Vision-Language Models, VLMs)能否为自动评估AR生成的场景提供解决方案？VLMs能否为自动评估AR生成的场景提供解决方案？在本研究中，我们评估了三种目前最先进的商业VLM——GPT、Gemini和Claude——在识别和描述AR场景方面的能力。为此，我们使用了DiverseAR数据集，这是第一个专门为评估VLMs分析不同复杂度AR场景中虚拟内容的能力而设计的数据集。我们的研究结果表明，VLMs通常能够感知和描述AR场景，感知的真实正率(Truth Positive Rate, TPR)最高可达93%，描述的TPR为71%。他们在识别明显的虚拟对象（如发光的苹果）方面表现出色，但在面对无缝整合的内容（如具有真实阴影的虚拟锅）时则面临困难。我们的研究结果突出了VLMs在理解AR情景方面的强点和弱点。我们确定了影响VLM性能的关键因素，包括虚拟内容的位置、渲染质量以及物理合理性。本研究强调了VLMs作为评估AR体验质量工具的潜力。