摘要
大型语言模型 (LLM) 和自动语音识别 (ASR) 相结合,部署在边缘设备上(称为边缘 ASR-LLM),可以作为强大的个性化助手,为用户提供基于音频的交互。与基于文本的交互相比,边缘 ASR-LLM 允许进行易访问且自然的音频交互。然而,现有的 ASR-LLM 模型主要在高性能计算环境中进行训练,并产生大量的模型权重,使其难以部署在边缘设备上。更重要的是,为了更好地满足用户的个性化需求,ASR-LLM 必须能够从每个不同的用户那里学习,因为音频输入通常包含高度个性化的特征,需要个性化的设备上训练。由于单独微调 ASR 或 LLM 由于模态特异性限制而往往导致次优结果,端到端训练确保了音频特征和语言理解(跨模态对齐)的无缝集成,最终实现了在边缘设备上更个性化和更高效的适应。然而,由于现有方法复杂的训练要求和大量的计算需求,ASR 音频和 LLM 之间的跨模态对齐在边缘设备上可能具有挑战性。在这项工作中,我们提出了一种资源高效的跨模态对齐框架,该框架在边缘设备上桥接 ASR 和 LLM 以处理个性化的音频输入。我们的框架能够在资源受限的设备(如 NVIDIA Jetson Orin (8GB RAM))上实现高效的 ASR-LLM 对齐,训练时间加快 50 倍,同时将对齐质量提高 50% 以上。据我们所知,这是第一项研究在资源受限的边缘设备上进行高效 ASR-LLM 对齐的工作。