LLM2D
SparQLe: 通过大语言模型将语音查询转换为文本翻译
SparQLe: Speech Queries to Text Translation Through LLMs
作者: Amirbek Djanibekov, Hanan Aldarmaki
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09284v1

摘要

arXiv:2502.09284v1 类型: cross 摘要: 随着大型语言模型(LLMs)影响力的不断增长,将语音表示与它们结合以实现更流畅的多模态处理和语音理解的兴趣也在不断增加。这项研究介绍了一种新的方法,该方法利用自监督的语音表示与指令调优的大型语言模型相结合进行语音到文本的翻译。提出的方法利用一个模态适配器,使用英语数据将提取的语音特征与指令调优的大型语言模型对齐。我们的实验表明,这种方法有效地保留了输入语音的语义内容,并且作为一种自监督语音模型与指令调优的大型语言模型之间的有效桥梁,提供了各种语音理解应用的有前途的解决方案。