LLM2D

摘要

arXiv:2412.15655v3 公告类型: replace-cross 摘要：在诸如数学课程或研究展示等多种学术和专业环境中，经常需要口头传达数学表达式。然而，在没有辅助视觉的情况下朗读数学表达式往往会显著妨碍理解，尤其是在听力受损或因语言障碍依赖字幕的情况下。例如，当讲师朗读欧拉公式时，当前的自动语音识别（ASR）模型通常会产生冗长且容易出错的文本描述（例如，e的i x次方等于x的余弦值加上i乘以x的正弦值的一侧），而不是简洁的$\LaTeX$格式（即，$e^{ix} = \cos(x) + i\sin(x)$），从而妨碍清晰的理解和沟通。为了解决这一问题，我们引入了MathSpeech，这是一种新颖的管道，将自动语音识别（ASR）模型与小型语言模型（sLM）结合，以纠正数学表达式中的错误，并准确地将口头表达转换为结构化的$\LaTeX$表示。在新数据集上进行评估，该数据集源自讲义录音，MathSpeech展示了与领先商业大型语言模型（LLMs）相当的$\LaTeX$生成能力，同时仅利用了120M参数的微调小型语言模型。具体而言，在$\LaTeX$翻译的字符错误率（CER）、BLEU和ROUGE分数方面，MathSpeech的性能明显优于GPT-4o。我们发现CER从0.390降低到了0.298，ROUGE和BLEU分数也高于GPT-4o。