摘要
arXiv:2505.03807v1 Announce Type: cross
摘要:视频故事互动使观众能够参与并探索叙事内容,以获得个性化的体验。然而,现有方法仅限于用户选择、特别设计的叙事,并缺乏个性化定制。为了解决这个问题,我们提出了一种基于用户意图的交互系统。该系统使用视觉语言模型(VLM)使机器能够理解视频故事,并结合检索增强生成(RAG)和多代理系统(MAS)来创建不断演变的角色和场景体验。它包括三个阶段:1)视频故事处理,利用VLM和先前知识,在三个模态中模拟人类对故事的理解。2)多空间聊天,通过MAS交互根据用户查询和故事阶段创建成长导向的角色。3)场景定制,扩展并可视化对话中提到的各种故事情景。在哈利波特系列中的应用显示,该系统有效地再现了角色社交行为和成长,提升了视频故事世界的互动体验。