LLM2D
当提示无法改变观点时:大型语言模型在道德和价值判断中的惯性
When Prompting Fails to Sway: Inertia in Moral and Value Judgments of Large Language Models
作者: Bruce W. Lee, Yeongheon Lee, Hyunsoo Cho
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2408.09049v2

摘要

arXiv:2408.09049v2 宣布类型: replace-cross 摘要:大规模语言模型(LLMs)表现出非确定性行为,而提示已经成为了引导其输出朝向期望方向的主要方法之一。一种流行策略是赋予模型一个特定的“人设”,以诱导更具多样性和上下文敏感的响应,类似于人类视角所展现的多样性。然而,与人们期望基于人设的提示会带来广泛的意见变化相反,我们的实验表明,LLMs保持一致的价值取向。特别地,我们观察到它们的响应中存在一种持续的惯性,某些道德和价值维度,尤其是避免伤害和公平性,即使在不同的“人设”设置下也明显偏向某个方向。为了系统地研究这一现象,我们使用了大规模的角色扮演方法,结合随机多样化的人设提示与模型输出的宏观趋势分析。我们的研究结果突显了LLMs中的强烈内部偏见和价值偏好,强调了仔细审查和调整这些模型以确保平衡和公平应用的重要性。