摘要
arXiv:2505.09558v1 交叉类型:公告
摘要:端到端语音对话模型如GPT-4o-audio最近在语音领域引起了广泛关注。然而,语音对话模型对话性能的评估长期以来被忽视。这主要归因于智能聊天机器人传递了大量非文本信息,而这些信息无法通过基于文本的语言模型(如ChatGPT)进行容易的测量。为了解决这一问题,我们提出了一种基于音频语言模型的奖励反馈模型WavReward,该模型可以使用语音输入评估语音对话系统的IQ和EQ。具体而言,1)基于音频语言模型,WavReward结合了深度推理过程和非线性奖励机制,用于后训练阶段。通过利用强化学习算法的多样本反馈,我们构建了一个专门针对语音对话模型的评估器。2)我们引入了ChatReward-30K,这是一个用于训练WavReward的偏好数据集。ChatReward-30K包括语音对话模型的理解和生成方面。这些场景涵盖了诸如文本聊天、九种指令聊天的声学属性以及隐含聊天等多种任务。WavReward在多个语音对话场景中优于之前的最强评估模型,在客观准确性方面从55.1%提高到91.5%,提高了相当大的幅度。在主观A/B测试中,WavReward也以83%的优势领先。全面的消融研究表明,WavReward的每个组件都是必要的。论文被接受后,所有数据和代码将在https://github.com/jishengpeng/WavReward公开。