LLM2D

摘要

arXiv:2502.05232v1 Announce Type: cross 摘要：现代自动语音识别系统，包括循环神经网络译码器（RNN-Transducer）和基于注意力的编码解码器（AED），设计时使得编码器不必改变音频序列中的信息时间位置到嵌入；对齐到最终文本输出是在解码过程中处理的。我们发现，最近几年使用的基于变压器的编码器实际上在前向传递过程中就可以内部执行对齐操作，即在解码之前进行对齐。这一新现象使得一种更简单且更高效的模型——"对齐编码器"成为可能。为了训练它，我们放弃了RNN-T中的动态规划，转而使用AED的帧间交叉熵损失，同时解码器使用RNN-T更轻量级的仅文本循环，而不使用学习到的交叉注意力——它只是从头开始扫描嵌入帧，依次产生一个词，直到预测到消息结束。我们进行了实验，证明其性能与最新技术水平相近，包括一个特别的推理配置，允许长格式识别。在一项代表性比较中，我们测量我们的模型的总推理时间为RNN-T的2倍快，AED的16倍快。最后，我们发现音频-文本对齐明显体现在某一层的自注意力权重中，可以称其为“自翻译”。