摘要
基于大型Transformer的模型在语音转录和翻译方面具有巨大潜力。它们的自我注意力机制和并行处理能力使它们能够捕获音频序列中复杂的模式和依赖关系。然而,这种潜力也伴随着挑战,因为这些庞大且计算密集型的模型会导致推理速度缓慢。为了提高性能,人们提出了各种优化策略,包括高效的硬件利用和算法增强。本文介绍了Whisper-Medusa,这是一种旨在以最小的词错误率(WER)影响来提高处理速度的新方法。该模型通过在每次迭代中预测多个标记来扩展OpenAI的Whisper架构,从而将延迟降低了50%。我们展示了Whisper-Medusa在不同学习设置和数据集上的有效性。