摘要
arXiv:2504.12522v1 宣告类型: cross
摘要: 近期研究表明,包括基于人类偏好的强化学习(RLHF)方法(如PPO和GRPO),以及替代方法DPO在内的偏好调优技术会减少多样性,而在需要多样化输出的应用中广泛部署的模型面临这一困境。为解决这一问题,我们提出了一种测量有效语义多样性的框架——即满足质量阈值的输出之间的多样性——更准确地反映了大型语言模型(LLMs)的实际效用。通过不需要人类干预的开放任务,我们得到一些反直观的结果:尽管偏好调优模型,尤其是通过RL训练的模型显示出减少的词汇和句法多样性,但从总体上它们产生的有效语义多样性大于SFT或基础模型,不是通过增加高质量输出之间的多样性,而是通过生成更多的高质量输出。我们发现偏好调优减少了句法多样性同时保留了语义多样性——揭示了形式多样性和内容多样性的区别,而传统指标往往忽视了这一点。进一步的分析还表明,较小的模型在固定采样预算下始终更具参数效率地生成独特的内容,从而提供了模型规模与多样性之间关系的见解。这些发现对于需要多样且高质量输出的应用具有重要的意义,从创意辅助到合成数据生成均有涉及。