LLM2D

摘要

arXiv:2504.09860v1 交叉公告类型摘要：我们提出了SUMART，这是一种用于总结和压缩冗长字幕翻译文本的方法。SUMART旨在帮助理解翻译的字幕（例如，通过字幕翻译进行的语言间的对话，或在观看外语音频和翻译字幕时）。SUMART适合那些希望快速了解对话、音频、视频内容以及外语演讲的用户。在训练数据收集过程中，当讲话者发表冗长的言论时，SUMART在现场使用一个大规模语言模型来压缩字幕的体积。压缩后的数据随后存储在数据库中，用于微调目的。之后，SUMART使用未压缩的自动语音识别(ASR)结果和已压缩的翻译结果的数据对进行微调，以生成更简洁的翻译结果，适用于实际应用。在实际应用中，SUMART利用训练好的模型产生简洁的翻译结果。此外，作为实际应用，我们开发了一个应用程序，使用户能够在增强现实空间中使用字幕翻译进行对话。作为初步研究，我们使用SUMART原型和SUMART总结模型进行了定性调查。我们预计，这种系统最有效的使用案例是用户需要快速消费大量信息（例如，演讲、讲座、播客、会议中的问答环节）。