摘要
arXiv:2408.09049v2 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)表现出非确定性行为,而提示已经成为了引导其输出朝向期望方向的主要方法之一。一种流行策略是赋予模型一个特定的“人设”,以诱导更具多样性和上下文敏感的响应,类似于人类视角所展现的多样性。然而,与人们期望基于人设的提示会带来广泛的意见变化相反,我们的实验表明,LLMs保持一致的价值取向。特别地,我们观察到它们的响应中存在一种持续的惯性,某些道德和价值维度,尤其是避免伤害和公平性,即使在不同的“人设”设置下也明显偏向某个方向。为了系统地研究这一现象,我们使用了大规模的角色扮演方法,结合随机多样化的人设提示与模型输出的宏观趋势分析。我们的研究结果突显了LLMs中的强烈内部偏见和价值偏好,强调了仔细审查和调整这些模型以确保平衡和公平应用的重要性。