摘要
arXiv:2412.12009v2 通知类型: replace-cross
摘要: 我们引入了语音信息检索(SIR),这是一种新的长上下文任务,适用于语音大语言模型(语音LLMs),并介绍了SPIRAL基准测试集,包含1012个样本,用于测试模型从约90秒的语音输入中提取关键细节的能力。当前的语音LLMs在短任务上表现出色,但在处理较长音频序列的计算和表征需求上存在困难。为了解决这一限制,我们提出了一种无需训练的音素修剪策略SpeechPrune,它使用语音-文本相似性和近似注意分数来高效地丢弃无关的音素。在SPIRAL中,SpeechPrune分别在修剪率为20%的情况下,相对于原始模型和随机修剪模型,实现了29%和至多47%的准确性提升。即使在80%的修剪水平下,SpeechPrune也能保持网络性能。这种方法突显了音素级修剪在高效和可扩展的长语音理解中的潜在价值。