LLM2D

摘要

arXiv:2504.06275v1 交叉类型公告摘要：本研究提出了一种级联架构，通过音频到文本对齐进行多媒体内容的提取式摘要。所提出的框架解决了从YouTube视频等多媒体来源中提取关键见解的挑战。该框架结合了使用Microsoft Azure Speech进行的音频到文本转换以及Whisper、Pegasus和Facebook BART XSum等高级提取式摘要模型。系统使用Pytube、Pydub和SpeechRecognition等工具进行内容检索、音频提取和转录。通过命名实体识别和语义角色标注增强了语言分析。使用ROUGE和F1分数进行的评估表明，级联架构在面对如转录错误等挑战的情况下，优于传统的摘要方法。未来改进可能包括模型微调和实时处理。本研究通过改进信息检索、可访问性和用户体验，为多媒体摘要做出了贡献。