摘要
arXiv:2502.09284v2 通知类型: replace-cross
摘要:随着大型语言模型(LLMs)影响力的不断扩大,人们越来越关注将语音表示与它们结合使用,以实现更加无缝的多模态处理和语音理解。本研究介绍了一种新颖的方法,该方法结合了自监督的语音表示和指令调优的语言模型,用于语音到文本的转换。该提议的方法利用模态适配器,使用英语数据将提取出的语音特征与指令调优的语言模型对齐。我们的实验表明,这种方法有效地保留了输入语音的语义内容,并且作为自监督的语音模型与指令调优的语言模型之间的有效桥梁,提供了在各种语音理解应用中的有前景的解决方案。