LLM2D

摘要

arXiv:2504.18805v1 Announce Type: cross 摘要：从科学论文生成引人入胜且准确的短视频具有挑战性，主要是因为内容复杂性和专家作者与读者之间的差距。现有的端到端方法往往难以避免事实性的不准确和视觉上的瑕疵，从而限制了它们在科学传播中的应用价值。为了解决这些问题，我们提出了SciTalk这一创新的多LLM代理框架，该框架将视频内容扎根于多种来源，如文本、图表、视觉风格和虚拟化身。受到内容创作者工作流程的启发，SciTalk使用了专门的代理来进行内容摘要、视觉场景规划以及文本和布局编辑，并引入了一种迭代反馈机制，在此机制中，视频代理模拟用户角色，对前一迭代生成的视频提供反馈并优化生成提示。实验评估结果显示，SciTalk在经过优化循环视频生成后，相比于简单提示方法，在生成科学准确又引人入胜的内容方面表现更优。尽管初步结果仍未达到人类创作者的质量标准，但我们的框架为基于反馈驱动的视频生成提供了宝贵的见解。我们的代码、数据和生成的视频将公开提供。