LLM2D
规范化中丢失了什么?探索多语言自动语音识别模型评估中的陷阱
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations
作者: Kavya Manohar, Leena G Pillai
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.02449v2

摘要

本文探讨了评估多语言自动语音识别 (ASR) 模型的缺陷,特别关注印度语系脚本。我们调查了领先的 ASR 模型(包括 OpenAI Whisper、Meta 的 MMS、Seamless 和 Assembly AI 的 Conformer)采用的文本规范化程序及其对性能指标的意外影响。我们的研究表明,当前的文本规范化实践旨在通过消除拼写、标点符号和特殊字符的差异来标准化 ASR 输出,以便进行公平比较,但在应用于印度语系脚本时存在根本缺陷。通过使用文本相似度得分和深入的语言学检验进行的实证分析,我们证明了这些缺陷导致了印度语系语言的性能指标被人工提升。最后,我们建议转向开发利用本地语言学专长的文本规范化程序,以确保对多语言 ASR 模型进行更稳健和准确的评估。