LLM2D

摘要

arXiv:2502.02441v1 Announce Type: cross 摘要：将大型语言模型（LLMs）如GPT-4与扩展现实（XR）技术结合，有可能构建真正沉浸的XR环境，通过自然语言与人类用户进行互动，例如从音频输入生成和动画化3D场景。然而，XR环境的复杂性使得从大量的XR艺术作品中准确提取相关背景数据和场景/对象参数变得困难。这不仅导致了使用按次付费模式增加的成本，还提高了生成错误的风险。此外，现有侧重于代码脚本生成的方法往往容易出现生成错误，导致有缺陷或无效的脚本、应用程序崩溃，并最终降低用户体验。为了克服这些挑战，我们引入了LLMER这一新框架，使用由LLMs生成的JSON数据创建互动的XR世界。不同于以往侧重于代码脚本生成的方法，LLMER将自然语言输入转化为JSON数据，显著降低了应用程序崩溃和处理延迟的可能性。它采用多阶段策略，仅提供适应用户请求的必要背景信息，并且设计了适用于各种XR任务的多个模块。我们初步的用户研究表明，与现有最先进的方法相比，该系统的有效性更高，消耗的令牌数量减少了80%以上，任务完成时间减少了约60%。用户反馈的分析还指出了进一步优化的一系列方向。