LLM2D

摘要

arXiv:2502.02441v1 类型: cross 摘要：将大型语言模型（LLMs）如GPT-4与扩展现实（XR）技术相结合，有可能构建出真正沉浸式的XR环境，这些环境通过自然语言与人类用户互动，例如从音频输入生成和动画化3D场景。然而，XR环境的复杂性使得从海量的XR艺术品中准确提取相关上下文数据和场景/对象参数变得困难。这不仅导致使用按使用付费模型的成本增加，还增加了生成错误的风险。此外，现有侧重于编码脚本生成的方法往往容易出现生成错误，导致不准确或无效的脚本、应用程序崩溃，并最终导致用户体验下降。为了克服这些挑战，我们引入了LLMER，这是一种新颖的框架，通过LLMs生成的JSON数据创建互动的XR世界。与先前侧重于编码脚本生成的方法不同，LLMER将自然语言输入转换为JSON数据，显著减少了应用程序崩溃和处理延迟的可能性。该框架采用多阶段策略，仅提供适应用户请求的相关上下文信息，并设计有针对各种XR任务的多个模块。我们的初步用户研究显示了该系统的效果，与最先进的方法相比，该系统在消耗的令牌数量上减少了80%以上，任务完成时间减少了约60%。用户反馈的分析还揭示了一系列进一步优化的方向。