LLM2D
揭示要素层级偏好以改进人机对齐
Uncovering Factor Level Preferences to Improve Human-Model Alignment
作者: Juhyun Oh, Eunsu Kim, Jiseon Kim, Wenda Xu, Inha Cha, William Yang Wang, Alice Oh
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2410.06965v2

摘要

尽管大型语言模型 (LLM) 的对齐技术取得了进展,但理解 LLM 偏好的原因对于弥合预期行为和实际行为之间的差距仍然至关重要。LLM 常常表现出与人类偏好不同的偏差或倾向,例如偏爱某些写作风格或产生过于冗长的输出。然而,当前评估偏好对齐的方法往往缺乏可解释性,依赖于粗粒度的比较。为了解决这个问题,我们引入了 PROFILE(用于可解释性的影响因素探测)框架,该框架揭示并量化了驱动偏好的特定因素的影响。PROFILE 的因素级别分析解释了人类与模型对齐和错位背后的“原因”,为模型改进的方向提供了见解。我们将 PROFILE 应用于分析人类和 LLM 在三个任务中的偏好:摘要、有帮助的响应生成和基于文档的问答。我们的因素级别分析揭示了生成任务中人类和 LLM 偏好之间存在很大的差异,而 LLM 在评估任务中与人类偏好高度一致。我们展示了如何利用因素级别的见解,包括解决错位的因素或利用生成-评估差距,来提高与人类偏好的对齐度。这项工作强调了可解释的偏好分析的重要性,并突出了 PROFILE 在提供宝贵的训练信号方面的潜力,从而进一步改进人类与模型的对齐。