LLM2D
野外的价值: 发现并分析现实语言模型互动中的价值
Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions
作者: Saffron Huang, Esin Durmus, Miles McCain, Kunal Handa, Alex Tamkin, Jerry Hong, Michael Stern, Arushi Somani, Xiuruo Zhang, Deep Ganguli
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15236v1

摘要

arXiv:2504.15236v1 Announce Type: cross 摘要:人工智能助手可以传递价值观,从而影响人们的决策和世界观,但关于这些系统在实际操作中依赖哪些价值观,我们知之甚少。为了解决这一问题,我们开发了一种自下而上、保护隐私的方法,以从 Claude 3 和 3.5 模型在数十万次真实互动中的响应中提取出它们体现的价值观(在模型响应中明示或暗示的规范性考虑)。我们通过实证研究和分类发现了 3,307 个 AI 价值观,并研究了它们在不同情景下的变化。我们发现,Claude 表达了许多实践性和认识论价值观,并通常支持有社会责任的人类价值观,而抵制如“道德虚无主义”等价值观。虽然一些价值观在不同情景中保持一致(例如“透明度”),但许多价值观则更为专业化和情景依赖,反映了人类对话者及其多样化背景的多样性。例如,当 Claude 抵制用户时,会出现“伤害预防”;当对有争议事件提问时,出现“历史准确性”;当寻求关系建议时,出现“健康边界”;在技术伦理讨论中,则是“人类自主权”。通过提供首次大规模实证研究AI在部署中的价值观映射,我们的研究为更务实的评估和设计AI系统中的价值观奠定了基础。