摘要
arXiv:2409.14672v1 公告类型: 新提交 摘要: 当前的指令调优语言模型仅使用文本偏好数据进行训练,因此通常无法满足其他模态(如语音)的独特需求。为了更好地将语言模型与语音领域对齐,我们探索了(i)基于广播行业最佳实践的提示策略和(ii)使用20K样本的新型语音偏好数据进行偏好学习,这些数据通过广泛的提示生成,涵盖了不同维度的语音适用性,并由听取响应对的标注者进行标注。人类和自动评估均显示,提示和偏好学习都能提高流行指令调优LLM的语音适用性。有趣的是,我们发现提示和偏好学习可以相辅相成;结合两者在头对头比较中取得了最佳胜率,平均在76.2%的比较中生成的响应优于或与基础模型持平。最后,我们分享了词汇、句法和定性分析,以展示每种方法如何有助于提高生成响应的语音适用性。