LLM2D

摘要

尽管大型语言模型 (LLM) 的对齐技术取得了进展，但理解 LLM 偏好的原因对于弥合预期行为和实际行为之间的差距仍然至关重要。LLM 常常表现出与人类偏好不同的偏差或倾向，例如偏爱某些写作风格或产生过于冗长的输出。然而，当前评估偏好对齐的方法往往缺乏可解释性，依赖于粗粒度的比较。为了解决这个问题，我们引入了 PROFILE（用于可解释性的影响因素探测）框架，该框架揭示并量化了驱动偏好的特定因素的影响。PROFILE 的因素级别分析解释了人类与模型对齐和错位背后的“原因”，为模型改进的方向提供了见解。我们将 PROFILE 应用于分析人类和 LLM 在三个任务中的偏好：摘要、有帮助的响应生成和基于文档的问答。我们的因素级别分析揭示了生成任务中人类和 LLM 偏好之间存在很大的差异，而 LLM 在评估任务中与人类偏好高度一致。我们展示了如何利用因素级别的见解，包括解决错位的因素或利用生成-评估差距，来提高与人类偏好的对齐度。这项工作强调了可解释的偏好分析的重要性，并突出了 PROFILE 在提供宝贵的训练信号方面的潜力，从而进一步改进人类与模型的对齐。