LLM2D

摘要

本文探讨了评估多语言自动语音识别 (ASR) 模型的缺陷，特别关注印度语系脚本。我们调查了领先的 ASR 模型（包括 OpenAI Whisper、Meta 的 MMS、Seamless 和 Assembly AI 的 Conformer）采用的文本规范化程序及其对性能指标的意外影响。我们的研究表明，当前的文本规范化实践旨在通过消除拼写、标点符号和特殊字符的差异来标准化 ASR 输出，以便进行公平比较，但在应用于印度语系脚本时存在根本缺陷。通过使用文本相似度得分和深入的语言学检验进行的实证分析，我们证明了这些缺陷导致了印度语系语言的性能指标被人工提升。最后，我们建议转向开发利用本地语言学专长的文本规范化程序，以确保对多语言 ASR 模型进行更稳健和准确的评估。