摘要
arXiv:2502.08279v2 宣告类型: replace-cross
摘要:将录制的视频转化为简洁且准确的文字摘要是多模态学习中的一个不断增长的挑战。本文介绍了VISTA,一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演示及其对应的论文摘要。我们基准测试了最先进的大型模型,并应用了一个计划驱动的框架以更好地捕捉摘要的结构化特性。人类和自动评估均证实了显式规划可以提高摘要的质量和事实一致性。然而,模型与人类的表现之间仍存在显著差距,这突显了科学视频总结的挑战性。