LLM2D

摘要

arXiv:2505.09558v1 交叉类型：公告摘要：端到端语音对话模型如GPT-4o-audio最近在语音领域引起了广泛关注。然而，语音对话模型对话性能的评估长期以来被忽视。这主要归因于智能聊天机器人传递了大量非文本信息，而这些信息无法通过基于文本的语言模型（如ChatGPT）进行容易的测量。为了解决这一问题，我们提出了一种基于音频语言模型的奖励反馈模型WavReward，该模型可以使用语音输入评估语音对话系统的IQ和EQ。具体而言，1）基于音频语言模型，WavReward结合了深度推理过程和非线性奖励机制，用于后训练阶段。通过利用强化学习算法的多样本反馈，我们构建了一个专门针对语音对话模型的评估器。2）我们引入了ChatReward-30K，这是一个用于训练WavReward的偏好数据集。ChatReward-30K包括语音对话模型的理解和生成方面。这些场景涵盖了诸如文本聊天、九种指令聊天的声学属性以及隐含聊天等多种任务。WavReward在多个语音对话场景中优于之前的最强评估模型，在客观准确性方面从55.1%提高到91.5%，提高了相当大的幅度。在主观A/B测试中，WavReward也以83%的优势领先。全面的消融研究表明，WavReward的每个组件都是必要的。论文被接受后，所有数据和代码将在https://github.com/jishengpeng/WavReward公开。