摘要
尽管大型语言模型 (LLM) 对齐取得了进展,但理解 LLM 偏好的原因对于弥合预期行为和实际行为之间的差距仍然至关重要。LLM 经常表现出与人类偏好不同的偏差或倾向,例如偏好某些写作风格或产生过于冗长的输出。然而,当前评估偏好对齐的方法通常缺乏可解释性,依赖于粗粒度的比较。为了解决这个问题,我们引入了 PROFILE(PRObing Factors of InfLuence for Explainability),这是一个新颖的框架,它揭示并量化了驱动偏好的特定因素的影响。PROFILE 的因素级别分析解释了人类模型对齐和错位背后的“原因”,为模型改进的方向提供了见解。我们将 PROFILE 应用于分析人类和 LLM 在三个任务中的偏好:摘要、有帮助的响应生成和基于文档的问答。我们的因素级别分析揭示了在生成任务中人类和 LLM 偏好之间存在很大差异,而 LLM 在评估任务中表现出与人类偏好的高度一致性。我们展示了如何利用因素级别洞察,包括解决错位因素或利用生成-评估差距,可以提高与人类偏好的对齐。这项工作强调了可解释的偏好分析的重要性,并突出了 PROFILE 在提供宝贵的训练信号方面的潜力,从而推动人类模型对齐的进一步改进。