LLM2D

摘要

尽管大型语言模型 (LLM) 对齐取得了进展，但理解 LLM 偏好的原因对于弥合预期行为和实际行为之间的差距仍然至关重要。LLM 经常表现出与人类偏好不同的偏差或倾向，例如偏好某些写作风格或产生过于冗长的输出。然而，当前评估偏好对齐的方法通常缺乏可解释性，依赖于粗粒度的比较。为了解决这个问题，我们引入了 PROFILE（PRObing Factors of InfLuence for Explainability），这是一个新颖的框架，它揭示并量化了驱动偏好的特定因素的影响。PROFILE 的因素级别分析解释了人类模型对齐和错位背后的“原因”，为模型改进的方向提供了见解。我们将 PROFILE 应用于分析人类和 LLM 在三个任务中的偏好：摘要、有帮助的响应生成和基于文档的问答。我们的因素级别分析揭示了在生成任务中人类和 LLM 偏好之间存在很大差异，而 LLM 在评估任务中表现出与人类偏好的高度一致性。我们展示了如何利用因素级别洞察，包括解决错位因素或利用生成-评估差距，可以提高与人类偏好的对齐。这项工作强调了可解释的偏好分析的重要性，并突出了 PROFILE 在提供宝贵的训练信号方面的潜力，从而推动人类模型对齐的进一步改进。