LLM2D
窃取创造者的 Workflow:一种基于创造者的代理框架,包含迭代反馈循环以改进科学短格式生成
Stealing Creator's Workflow: A Creator-Inspired Agentic Framework with Iterative Feedback Loop for Improved Scientific Short-form Generation
作者: Jong Inn Park, Maanas Taneja, Qianwen Wang, Dongyeop Kang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18805v1

摘要

arXiv:2504.18805v1 Announce Type: cross 摘要:从科学论文生成引人入胜且准确的短视频具有挑战性,主要是因为内容复杂性和专家作者与读者之间的差距。现有的端到端方法往往难以避免事实性的不准确和视觉上的瑕疵,从而限制了它们在科学传播中的应用价值。为了解决这些问题,我们提出了SciTalk这一创新的多LLM代理框架,该框架将视频内容扎根于多种来源,如文本、图表、视觉风格和虚拟化身。受到内容创作者工作流程的启发,SciTalk使用了专门的代理来进行内容摘要、视觉场景规划以及文本和布局编辑,并引入了一种迭代反馈机制,在此机制中,视频代理模拟用户角色,对前一迭代生成的视频提供反馈并优化生成提示。实验评估结果显示,SciTalk在经过优化循环视频生成后,相比于简单提示方法,在生成科学准确又引人入胜的内容方面表现更优。尽管初步结果仍未达到人类创作者的质量标准,但我们的框架为基于反馈驱动的视频生成提供了宝贵的见解。我们的代码、数据和生成的视频将公开提供。