LLM2D

摘要

arXiv:2502.08279v1 交叉类型公告摘要：将录制的视频转换为简洁且准确的文本摘要是多模态学习中日益增长的挑战。本文介绍了VISTA，一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演讲及其相应的论文摘要。我们衡量了最新大型模型的性能，并应用基于计划的框架以更好地捕捉摘要的结构化特征。人类和自动评估均证实，显式规划可以提升摘要质量并增强事实一致性。然而，模型与人类表现之间仍然存在较大的差距，突显了科学视频总结的挑战。