LLM2D

摘要

arXiv:2409.14672v1 公告类型: 新提交摘要: 当前的指令调优语言模型仅使用文本偏好数据进行训练，因此通常无法满足其他模态（如语音）的独特需求。为了更好地将语言模型与语音领域对齐，我们探索了（i）基于广播行业最佳实践的提示策略和（ii）使用20K样本的新型语音偏好数据进行偏好学习，这些数据通过广泛的提示生成，涵盖了不同维度的语音适用性，并由听取响应对的标注者进行标注。人类和自动评估均显示，提示和偏好学习都能提高流行指令调优LLM的语音适用性。有趣的是，我们发现提示和偏好学习可以相辅相成；结合两者在头对头比较中取得了最佳胜率，平均在76.2%的比较中生成的响应优于或与基础模型持平。最后，我们分享了词汇、句法和定性分析，以展示每种方法如何有助于提高生成响应的语音适用性。