摘要
arXiv:2504.15236v1 Announce Type: cross
摘要:人工智能助手可以传递价值观,从而影响人们的决策和世界观,但关于这些系统在实际操作中依赖哪些价值观,我们知之甚少。为了解决这一问题,我们开发了一种自下而上、保护隐私的方法,以从 Claude 3 和 3.5 模型在数十万次真实互动中的响应中提取出它们体现的价值观(在模型响应中明示或暗示的规范性考虑)。我们通过实证研究和分类发现了 3,307 个 AI 价值观,并研究了它们在不同情景下的变化。我们发现,Claude 表达了许多实践性和认识论价值观,并通常支持有社会责任的人类价值观,而抵制如“道德虚无主义”等价值观。虽然一些价值观在不同情景中保持一致(例如“透明度”),但许多价值观则更为专业化和情景依赖,反映了人类对话者及其多样化背景的多样性。例如,当 Claude 抵制用户时,会出现“伤害预防”;当对有争议事件提问时,出现“历史准确性”;当寻求关系建议时,出现“健康边界”;在技术伦理讨论中,则是“人类自主权”。通过提供首次大规模实证研究AI在部署中的价值观映射,我们的研究为更务实的评估和设计AI系统中的价值观奠定了基础。