LLM2D
朝着教育领域的多模态文档 grounding 对话 AI 系统发展
Towards a Multimodal Document-grounded Conversational AI System for Education
作者: Karan Taneja, Anjali Singh, Ashok K. Goel
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.13884v1

摘要

arXiv:2504.13884v1 类型: cross 摘要:已证明使用文字和图像的多媒体学习比仅使用文字的指令能提高学习成果。然而,教育中的对话式AI系统主要依赖基于文本的交互,而对于多媒体学习的多模态对话尚未进行探索。此外,在学习环境中部署对话式AI需要基于可靠来源并具有可验证性以建立信任。我们提出了MuDoC,一个基于GPT-4o的多模态文档本体对话式AI系统,该系统利用文本和文档中的图像来生成交错的文字和图像的回应。其界面允许通过无缝导航到源文件来验证AI生成的内容。我们将MuDoC与仅基于文本的系统进行比较,以探索学习者参与度、对AI系统的信任以及他们在问题解决任务上的表现差异。我们的研究发现表明,内容的可验证性以及视觉信息能够增强学习者参与度并促进信任;然而,未观察到在表现上有显著影响。我们借鉴认知科学和学习科学的理论来解释这些发现并推导出启示,指出了教育中多模态对话式AI系统发展的未来方向。