摘要
arXiv:2310.13548v4 文章类型:替换交叉
摘要:人类反馈通常被用于微调AI助手。但人类反馈也可能促使模型响应匹配用户的信念而非真实的事实,这种行为被称为歌功颂德。我们调查了在微调过程中使用了人类反馈的模型中歌功颂德现象的普遍性,以及人类偏好判断在该行为中可能发挥的作用。我们首先展示了五种最先进的AI助手在四种不同的自由文本生成任务中一致表现出歌功颂德的现象。为了了解人类偏好是否驱动这种广泛观察到的行为,我们分析了现有的人类偏好数据。我们发现,当响应与用户的观点相一致时,它更有可能被偏好。此外,人类和偏好模型(PMs)在一定比例的情况下都会更偏好写得有说服力的歌功颂德响应,而不是正确的响应。优化模型输出以适应PMs有时也会牺牲真实性以换取歌功颂德。总体而言,我们的结果表明,歌功颂德是最先进的AI助手的一种普遍行为,部分可能是由更偏好歌功颂德响应的人类偏好判断所驱动的。