摘要
arXiv:2412.15655v3 公告类型: replace-cross
摘要:在诸如数学课程或研究展示等多种学术和专业环境中,经常需要口头传达数学表达式。然而,在没有辅助视觉的情况下朗读数学表达式往往会显著妨碍理解,尤其是在听力受损或因语言障碍依赖字幕的情况下。例如,当讲师朗读欧拉公式时,当前的自动语音识别(ASR)模型通常会产生冗长且容易出错的文本描述(例如,e的i x次方等于x的余弦值加上i乘以x的正弦值的一侧),而不是简洁的$\LaTeX$格式(即,$e^{ix} = \cos(x) + i\sin(x)$),从而妨碍清晰的理解和沟通。为了解决这一问题,我们引入了MathSpeech,这是一种新颖的管道,将自动语音识别(ASR)模型与小型语言模型(sLM)结合,以纠正数学表达式中的错误,并准确地将口头表达转换为结构化的$\LaTeX$表示。在新数据集上进行评估,该数据集源自讲义录音,MathSpeech展示了与领先商业大型语言模型(LLMs)相当的$\LaTeX$生成能力,同时仅利用了120M参数的微调小型语言模型。具体而言,在$\LaTeX$翻译的字符错误率(CER)、BLEU和ROUGE分数方面,MathSpeech的性能明显优于GPT-4o。我们发现CER从0.390降低到了0.298,ROUGE和BLEU分数也高于GPT-4o。