LLM2D
AMPS:带有多模态同义复述监督的ASR
AMPS: ASR with Multimodal Paraphrase Supervision
作者: Abhishek Gupta, Amruta Parulekar, Sameep Chattopadhyay, Preethi Jyothi
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2411.18368v2

摘要

arXiv:2411.18368v2 宣布类型: replace-cross 摘要:自发或对话式的多语言语音给最先进的自动语音识别(ASR)系统带来了许多挑战。在本文中,我们介绍了一种新的技术AMPS,该技术通过基于重述的监督来增强一个多语言多模态ASR系统,以提高多语言(包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚卡语)的对话ASR性能。我们在训练多模态ASR模型时使用参考转录的重述作为额外的监督,并针对ASR性能较差的短语有选择地激活这种重述目标。使用AMPS与最先进的多模态模型SeamlessM4T结合,我们获得了高达5%的相对词错误率(WERs)的显著降低。我们使用客观和人工评估指标详细分析了我们的系统。