LLM2D

摘要

arXiv:2411.18368v2 宣布类型: replace-cross 摘要：自发或对话式的多语言语音给最先进的自动语音识别（ASR）系统带来了许多挑战。在本文中，我们介绍了一种新的技术AMPS，该技术通过基于重述的监督来增强一个多语言多模态ASR系统，以提高多语言（包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚卡语）的对话ASR性能。我们在训练多模态ASR模型时使用参考转录的重述作为额外的监督，并针对ASR性能较差的短语有选择地激活这种重述目标。使用AMPS与最先进的多模态模型SeamlessM4T结合，我们获得了高达5%的相对词错误率（WERs）的显著降低。我们使用客观和人工评估指标详细分析了我们的系统。