摘要
arXiv:2411.18368v2 宣布类型: replace-cross
摘要:自发或对话式的多语言语音给最先进的自动语音识别(ASR)系统带来了许多挑战。在本文中,我们介绍了一种新的技术AMPS,该技术通过基于重述的监督来增强一个多语言多模态ASR系统,以提高多语言(包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚卡语)的对话ASR性能。我们在训练多模态ASR模型时使用参考转录的重述作为额外的监督,并针对ASR性能较差的短语有选择地激活这种重述目标。使用AMPS与最先进的多模态模型SeamlessM4T结合,我们获得了高达5%的相对词错误率(WERs)的显著降低。我们使用客观和人工评估指标详细分析了我们的系统。