LLM2D

摘要

arXiv:2504.12522v1 宣告类型: cross 摘要: 近期研究表明，包括基于人类偏好的强化学习（RLHF）方法（如PPO和GRPO），以及替代方法DPO在内的偏好调优技术会减少多样性，而在需要多样化输出的应用中广泛部署的模型面临这一困境。为解决这一问题，我们提出了一种测量有效语义多样性的框架——即满足质量阈值的输出之间的多样性——更准确地反映了大型语言模型（LLMs）的实际效用。通过不需要人类干预的开放任务，我们得到一些反直观的结果：尽管偏好调优模型，尤其是通过RL训练的模型显示出减少的词汇和句法多样性，但从总体上它们产生的有效语义多样性大于SFT或基础模型，不是通过增加高质量输出之间的多样性，而是通过生成更多的高质量输出。我们发现偏好调优减少了句法多样性同时保留了语义多样性——揭示了形式多样性和内容多样性的区别，而传统指标往往忽视了这一点。进一步的分析还表明，较小的模型在固定采样预算下始终更具参数效率地生成独特的内容，从而提供了模型规模与多样性之间关系的见解。这些发现对于需要多样且高质量输出的应用具有重要的意义，从创意辅助到合成数据生成均有涉及。