摘要
我们提出了一种名为 GE2E-KWS 的通用端到端训练和评估框架,用于定制关键词识别。具体来说,训练批次中的关键词会将注册语音分离并分组,然后将它们的嵌入中心与所有其他测试语音嵌入进行比较以计算损失。这模拟了运行时的注册和验证阶段,并且与最先进的三元组损失方法相比,通过优化矩阵运算提高了收敛稳定性和训练速度。为了可靠地对不同模型进行基准测试,我们提出了一种模拟生产环境的评估过程,并计算直接衡量关键词匹配准确率的指标。使用 GE2E 损失进行训练后,我们 419KB 量化的 Conformers 模型在 AUC 上比 7.5GB 的 ASR 编码器高出 23.6%,比相同大小的三元组损失模型高出 60.7%。我们的关键词识别模型具有低内存占用率,天生可流式传输,并设计为可在设备上连续运行,无需针对新关键词进行重新训练(零样本)。