LLM2D

摘要

基于大型语言模型 (LLM) 的成功，最近的进展（例如 GPT-4o）使得通过基于 LLM 的语音助手实现实时语音交互成为可能，与传统的基于文本的交互相比，这显著改善了用户体验。然而，缺乏用于评估这些语音交互能力的基准测试阻碍了基于 LLM 的语音助手发展的进步。目前的评估主要集中在自动语音识别 (ASR) 或使用清晰语音的一般知识评估上，忽略了更复杂、更贴近现实世界的场景，这些场景涉及不同的说话者特征、环境和内容因素。为了解决这个问题，我们引入了 VoiceBench，这是第一个旨在对基于 LLM 的语音助手进行多方面评估的基准。VoiceBench 还包括真实和合成的语音指令，这些指令包含上述三个关键的现实世界变化。大量的实验揭示了当前基于 LLM 的语音助手模型的局限性，并为该领域的未来研究和发展提供了宝贵的见解。