摘要
arXiv:2502.02441v1 Announce Type: cross
摘要:将大型语言模型(LLMs)如GPT-4与扩展现实(XR)技术结合,有可能构建真正沉浸的XR环境,通过自然语言与人类用户进行互动,例如从音频输入生成和动画化3D场景。然而,XR环境的复杂性使得从大量的XR艺术作品中准确提取相关背景数据和场景/对象参数变得困难。这不仅导致了使用按次付费模式增加的成本,还提高了生成错误的风险。此外,现有侧重于代码脚本生成的方法往往容易出现生成错误,导致有缺陷或无效的脚本、应用程序崩溃,并最终降低用户体验。为了克服这些挑战,我们引入了LLMER这一新框架,使用由LLMs生成的JSON数据创建互动的XR世界。不同于以往侧重于代码脚本生成的方法,LLMER将自然语言输入转化为JSON数据,显著降低了应用程序崩溃和处理延迟的可能性。它采用多阶段策略,仅提供适应用户请求的必要背景信息,并且设计了适用于各种XR任务的多个模块。我们初步的用户研究表明,与现有最先进的方法相比,该系统的有效性更高,消耗的令牌数量减少了80%以上,任务完成时间减少了约60%。用户反馈的分析还指出了进一步优化的一系列方向。