摘要
arXiv:2504.09860v1 交叉公告类型
摘要:我们提出了SUMART,这是一种用于总结和压缩冗长字幕翻译文本的方法。SUMART旨在帮助理解翻译的字幕(例如,通过字幕翻译进行的语言间的对话,或在观看外语音频和翻译字幕时)。SUMART适合那些希望快速了解对话、音频、视频内容以及外语演讲的用户。在训练数据收集过程中,当讲话者发表冗长的言论时,SUMART在现场使用一个大规模语言模型来压缩字幕的体积。压缩后的数据随后存储在数据库中,用于微调目的。之后,SUMART使用未压缩的自动语音识别(ASR)结果和已压缩的翻译结果的数据对进行微调,以生成更简洁的翻译结果,适用于实际应用。在实际应用中,SUMART利用训练好的模型产生简洁的翻译结果。此外,作为实际应用,我们开发了一个应用程序,使用户能够在增强现实空间中使用字幕翻译进行对话。作为初步研究,我们使用SUMART原型和SUMART总结模型进行了定性调查。我们预计,这种系统最有效的使用案例是用户需要快速消费大量信息(例如,演讲、讲座、播客、会议中的问答环节)。