LLM2D

摘要

arXiv:2502.04103v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）的快速进化已改变了人机交互（HCI），但与LLMs的交互目前主要集中在基于文本的交互上，而其他多模态方法仍然未被充分探索。本文介绍了VTutor，这是一个开源软件开发工具包（SDK），将生成式AI与高级动画技术相结合，以创建具有吸引力、适应性强且逼真的多模态人机交互代理（APAs）。VTutor利用LLMs进行实时个性化反馈，采用高级唇同步技术实现自然语音对齐，并通过WebGL渲染实现无缝网页集成。VTutor支持各种2D和3D角色模型，使研究人员和开发者能够设计出具有情感共鸣、上下文适应性的学习代理。该工具包增强了学习者的参与度、反馈接受度，并促进了教育中值得信赖的人工智能原则。VTutor为下一代APAs设定了新标准，提供了一种可访问、可扩展的解决方案，以培养有意义且沉浸式的人机交互体验。VTutor项目已开源，并欢迎社区驱动的贡献和展示。