摘要
arXiv:2502.02441v1 类型: cross
摘要:将大型语言模型(LLMs)如GPT-4与扩展现实(XR)技术相结合,有可能构建出真正沉浸式的XR环境,这些环境通过自然语言与人类用户互动,例如从音频输入生成和动画化3D场景。然而,XR环境的复杂性使得从海量的XR艺术品中准确提取相关上下文数据和场景/对象参数变得困难。这不仅导致使用按使用付费模型的成本增加,还增加了生成错误的风险。此外,现有侧重于编码脚本生成的方法往往容易出现生成错误,导致不准确或无效的脚本、应用程序崩溃,并最终导致用户体验下降。为了克服这些挑战,我们引入了LLMER,这是一种新颖的框架,通过LLMs生成的JSON数据创建互动的XR世界。与先前侧重于编码脚本生成的方法不同,LLMER将自然语言输入转换为JSON数据,显著减少了应用程序崩溃和处理延迟的可能性。该框架采用多阶段策略,仅提供适应用户请求的相关上下文信息,并设计有针对各种XR任务的多个模块。我们的初步用户研究显示了该系统的效果,与最先进的方法相比,该系统在消耗的令牌数量上减少了80%以上,任务完成时间减少了约60%。用户反馈的分析还揭示了一系列进一步优化的方向。