LLM2D

摘要

arXiv:2504.15552v1 通知类型: 新摘要: 本文介绍了一种新颖的多智能体框架，通过整合大型语言模型、视觉生成和语音合成技术，实现了秦腔戏剧从头到尾的自动化生产。三个专门的智能体按顺序协作：Agent1 使用大型语言模型来创作连贯且具有文化根基的剧本；Agent2 利用视觉生成模型渲染上下文准确的舞台场景；Agent3 利用语音合成（TTS）生成同步且情感表达的演唱表演。在《窦娥冤》的案例研究中，系统在剧本忠实度上获得了3.8的专家评分，在视觉一致性上获得了3.5的评分，在语音准确性上获得了3.8的评分，总体评分为3.6，比单智能体基线模型提高了0.3分。消融实验表明，去除Agent2或Agent3会导致分别下降0.4分和0.5分，突显了模块化协作的价值。本项工作展示了人工智能驱动的工作流程如何简化和扩大传统表演艺术的保存，并指出了今后在跨模态对齐、更丰富的情感细腻以及支持更多歌剧流派等方面的改进方向。