摘要
现有的关键词识别 (KWS) 系统主要依赖于预定义的关键词短语。然而,识别自定义关键词的能力对于定制与智能设备的交互至关重要。本文提出了一种新颖的基于示例查询 (QbyE) 的 KWS 系统,该系统采用频谱-时间图注意力池化和多任务学习。该框架旨在有效地学习用于 QbyE KWS 任务的说话人无关和语言信息嵌入。在这个框架内,我们研究了三种不同的编码器建模网络架构:LiCoNet、Conformer 和 ECAPA_TDNN。在包含 629 位说话人的大型内部数据集上的实验结果证明了所提出的 QbyE 框架在最大限度地发挥 LiCoNet 等更简单模型潜力的有效性。特别是,效率提高 13 倍的 LiCoNet,其性能与计算密集型 Conformer 模型相当(在 0.3 FAs/Hr 时,FRR 分别为 1.98% 和 1.63%)。