LLM2D

摘要

arXiv:2502.09284v2 通知类型: replace-cross 摘要：随着大型语言模型（LLMs）影响力的不断扩大，人们越来越关注将语音表示与它们结合使用，以实现更加无缝的多模态处理和语音理解。本研究介绍了一种新颖的方法，该方法结合了自监督的语音表示和指令调优的语言模型，用于语音到文本的转换。该提议的方法利用模态适配器，使用英语数据将提取出的语音特征与指令调优的语言模型对齐。我们的实验表明，这种方法有效地保留了输入语音的语义内容，并且作为自监督的语音模型与指令调优的语言模型之间的有效桥梁，提供了在各种语音理解应用中的有前景的解决方案。