LLM2D

摘要

arXiv:2505.03807v1 Announce Type: cross 摘要：视频故事互动使观众能够参与并探索叙事内容，以获得个性化的体验。然而，现有方法仅限于用户选择、特别设计的叙事，并缺乏个性化定制。为了解决这个问题，我们提出了一种基于用户意图的交互系统。该系统使用视觉语言模型（VLM）使机器能够理解视频故事，并结合检索增强生成（RAG）和多代理系统（MAS）来创建不断演变的角色和场景体验。它包括三个阶段：1）视频故事处理，利用VLM和先前知识，在三个模态中模拟人类对故事的理解。2）多空间聊天，通过MAS交互根据用户查询和故事阶段创建成长导向的角色。3）场景定制，扩展并可视化对话中提到的各种故事情景。在哈利波特系列中的应用显示，该系统有效地再现了角色社交行为和成长，提升了视频故事世界的互动体验。