摘要
arXiv:2501.06117v2 announcetype: replace-cross
摘要:口语理解(SLU)对于缺乏正式书写系统的语言来说至关重要,因为这些语言无法将自动语音识别(ASR)与语言模型结合使用以从中受益于语言技术。即使低资源语言具备书写系统,这些语言的ASR仍然由于有限的双模态语音和文本训练数据而不可靠。更好的SLU可以增强大规模多语言ASR的健壮性,利用语言语义通过上下文消除歧义或利用跨语言的语义相似性。然而,多语言SLU的评估仍然局限于浅层任务,如意图分类或语言识别。为了解决这一问题,我们提出了Fleurs-SLU,这是一种多语言SLU基准,其中包括(i)102种语言中用于话题性语句分类的692小时语音数据,以及(ii)在92种语言中覆盖944小时语音数据的通过听力理解进行的多项选择题问答。我们在Fleurs-SLU上广泛评估了端到端的语音分类模型和结合语音转文本转录与后续由大规模语言模型进行分类的级联系统。结果显示,级联系统在多语言SLU任务中表现出更强的稳健性,尽管当适当预训练时,语音编码器在话题性语音分类中也能达到竞争性的性能。我们进一步发现,稳健的多语言ASR、有效的语音转文本翻译和强大的多语言SLU之间存在强烈的相关性,突显了声学和语义语音表示之间的相互益处。