摘要
基于大型语言模型 (LLM) 的成功,最近的进展(例如 GPT-4o)使得通过基于 LLM 的语音助手实现实时语音交互成为可能,与传统的基于文本的交互相比,这显著改善了用户体验。然而,缺乏用于评估这些语音交互能力的基准测试阻碍了基于 LLM 的语音助手发展的进步。目前的评估主要集中在自动语音识别 (ASR) 或使用清晰语音的一般知识评估上,忽略了更复杂、更贴近现实世界的场景,这些场景涉及不同的说话者特征、环境和内容因素。为了解决这个问题,我们引入了 VoiceBench,这是第一个旨在对基于 LLM 的语音助手进行多方面评估的基准。VoiceBench 还包括真实和合成的语音指令,这些指令包含上述三个关键的现实世界变化。大量的实验揭示了当前基于 LLM 的语音助手模型的局限性,并为该领域的未来研究和发展提供了宝贵的见解。