LLM2D

摘要

arXiv:2408.09049v2 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）表现出非确定性行为，而提示已经成为了引导其输出朝向期望方向的主要方法之一。一种流行策略是赋予模型一个特定的“人设”，以诱导更具多样性和上下文敏感的响应，类似于人类视角所展现的多样性。然而，与人们期望基于人设的提示会带来广泛的意见变化相反，我们的实验表明，LLMs保持一致的价值取向。特别地，我们观察到它们的响应中存在一种持续的惯性，某些道德和价值维度，尤其是避免伤害和公平性，即使在不同的“人设”设置下也明显偏向某个方向。为了系统地研究这一现象，我们使用了大规模的角色扮演方法，结合随机多样化的人设提示与模型输出的宏观趋势分析。我们的研究结果突显了LLMs中的强烈内部偏见和价值偏好，强调了仔细审查和调整这些模型以确保平衡和公平应用的重要性。