LLM2D

摘要

大型语言模型 (LLM) 和自动语音识别 (ASR) 相结合，部署在边缘设备上（称为边缘 ASR-LLM），可以作为强大的个性化助手，为用户提供基于音频的交互。与基于文本的交互相比，边缘 ASR-LLM 允许进行易访问且自然的音频交互。然而，现有的 ASR-LLM 模型主要在高性能计算环境中进行训练，并产生大量的模型权重，使其难以部署在边缘设备上。更重要的是，为了更好地满足用户的个性化需求，ASR-LLM 必须能够从每个不同的用户那里学习，因为音频输入通常包含高度个性化的特征，需要个性化的设备上训练。由于单独微调 ASR 或 LLM 由于模态特异性限制而往往导致次优结果，端到端训练确保了音频特征和语言理解（跨模态对齐）的无缝集成，最终实现了在边缘设备上更个性化和更高效的适应。然而，由于现有方法复杂的训练要求和大量的计算需求，ASR 音频和 LLM 之间的跨模态对齐在边缘设备上可能具有挑战性。在这项工作中，我们提出了一种资源高效的跨模态对齐框架，该框架在边缘设备上桥接 ASR 和 LLM 以处理个性化的音频输入。我们的框架能够在资源受限的设备（如 NVIDIA Jetson Orin (8GB RAM)）上实现高效的 ASR-LLM 对齐，训练时间加快 50 倍，同时将对齐质量提高 50% 以上。据我们所知，这是第一项研究在资源受限的边缘设备上进行高效 ASR-LLM 对齐的工作。