LLM2D
SurGen:用于手术视频生成的文本引导扩散模型
SurGen: Text-Guided Diffusion Model for Surgical Video Generation
作者: Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Dhamanpreet Kaur, Rohan Shad, William Hiesinger
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2408.14028v3

摘要

基于扩散的视频生成模型取得了显著进展,产生了具有更高视觉保真度、时间一致性和用户控制的输出。这些进步为改善外科教育提供了巨大希望,使更逼真、多样化和互动式的模拟环境成为可能。在本研究中,我们介绍了 SurGen,一个针对外科视频合成的文本引导扩散模型。SurGen 生成的视频在现有外科视频生成模型中具有最高分辨率和最长时长。我们使用标准图像和视频生成指标验证了输出的视觉和时间质量。此外,我们通过在外科数据上训练的深度学习分类器评估了它们与相应文本提示的匹配程度。我们的结果证明了扩散模型作为外科培训人员宝贵教育工具的潜力。