摘要
流式生成模型正广泛应用于各个领域,其中转录器架构在工业应用中尤为流行。然而,其输入同步解码机制在需要非单调对齐的任务(例如同声传译)中存在挑战,导致这些情况下性能欠佳。本研究通过利用可学习的单调注意力机制将转录器的解码与输入流的历史紧密结合,解决了这个问题。我们的方法利用前向-后向算法来推断预测器状态和输入时间戳之间对齐的后验概率,然后将其用于估计训练中单调注意力的上下文表示。这使得转录器模型能够根据其预测自适应地调整注意力范围,避免需要枚举指数级大小的对齐空间。大量实验表明,我们的 MonoAttn-Transducer 显著增强了流式生成中非单调对齐的处理能力,为基于转录器的框架处理更复杂的流式生成任务提供了一种稳健的解决方案。