LLM2D
Home
Arxiv
返回列表
那是关于什么的演讲?一种针对科研演示的视频到文本摘要数据集
What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
作者:
Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
发布日期:
2/13/2025
arXiv ID:
oai:arXiv.org:2502.08279v1
摘要
arXiv:2502.08279v1 交叉类型公告 摘要:将录制的视频转换为简洁且准确的文本摘要是多模态学习中日益增长的挑战。本文介绍了VISTA,一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演讲及其相应的论文摘要。我们衡量了最新大型模型的性能,并应用基于计划的框架以更好地捕捉摘要的结构化特征。人类和自动评估均证实,显式规划可以提升摘要质量并增强事实一致性。然而,模型与人类表现之间仍然存在较大的差距,突显了科学视频总结的挑战。
查看原文
下载 PDF