LLM2D
当端到端模型过于复杂时:重新思考级联语音到文本翻译
When End-to-End is Overkill: Rethinking Cascaded Speech-to-Text Translation
作者: Anna Min, Chenxu Hu, Yi Ren, Hang Zhao
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00377v1

摘要

arXiv:2502.00377v1 交叉类型: 模型 摘要:尽管端到端的语音到文本翻译取得了巨大成功,但我们认为级联的语音到文本翻译模型仍有其存在的必要性,这种模型通常因其自动语音识别(ASR)和机器翻译(MT)模型之间的错误传播而受到批评。在本文中,我们探讨了将多个ASR候选和自我监督的语音特征纳入MT中的益处。我们的分析表明,级联错误的主要原因来自于将语音域中的相似样本映射到文本域后其间的增强偏离。通过包括多个候选和自我监督的语音特征,我们的方法允许机器翻译模型选择正确的单词,并使用各种语音样本确保精确的翻译。该策略最小化了错误传播,并充分利用了大型ASR和MT数据集以及预训练的ASR/MT模型,同时解决了相关问题。