LLM2D
那是在讲什么呢?一种用于科学研究展示的视频到文本摘要数据集
What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
作者: Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.08279v2

摘要

arXiv:2502.08279v2 宣告类型: replace-cross 摘要:将录制的视频转化为简洁且准确的文字摘要是多模态学习中的一个不断增长的挑战。本文介绍了VISTA,一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演示及其对应的论文摘要。我们基准测试了最先进的大型模型,并应用了一个计划驱动的框架以更好地捕捉摘要的结构化特性。人类和自动评估均证实了显式规划可以提高摘要的质量和事实一致性。然而,模型与人类的表现之间仍存在显著差距,这突显了科学视频总结的挑战性。