LLM2D
VTutor: 一种基于生成人工智能驱动的动画教学代理的开源SDK,支持多媒质输出
VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output
作者: Eason Chen, Chengyu Lin, Xinyi Tang, Aprille Xi, Canwen Wang, Jionghao Lin, Kenneth R Koedinger
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04103v1

摘要

arXiv:2502.04103v1 宣布类型:交叉 摘要:大型语言模型(LLMs)的快速演变已经改变了人机交互(HCI),但与LLMs的交互目前主要集中在文本交互上,而其他多模态方法仍然未被充分探索。本文介绍了VTutor,这是一个开源软件开发工具包(SDK),它将生成型AI与先进的动画技术相结合,以创建引人入胜、可适应且逼真的多模态代理(APAs)用于人机多媒体交互。VTutor利用LLMs进行实时个性化反馈,先进的唇同步以实现自然的语音对齐,并通过WebGL渲染无缝集成到网页中。支持各种2D和3D角色模型,VTutor使研究者和开发者能够设计出具有情感共鸣、上下文适应性强的学习代理。该工具包增强了学习者参与度、反馈接受度以及人机交互,同时推动了教育中的可信赖AI原则。VTutor为下一代APAs树立了新的标准,提供了一种可访问且可扩展的解决方案,用于培养有意义且沉浸式的人机交互体验。VTutor项目是开源的,并欢迎社区驱动的贡献和展示。