LLM2D

摘要

arXiv:2504.15236v1 Announce Type: cross 摘要：人工智能助手可以传递价值观，从而影响人们的决策和世界观，但关于这些系统在实际操作中依赖哪些价值观，我们知之甚少。为了解决这一问题，我们开发了一种自下而上、保护隐私的方法，以从 Claude 3 和 3.5 模型在数十万次真实互动中的响应中提取出它们体现的价值观（在模型响应中明示或暗示的规范性考虑）。我们通过实证研究和分类发现了 3,307 个 AI 价值观，并研究了它们在不同情景下的变化。我们发现，Claude 表达了许多实践性和认识论价值观，并通常支持有社会责任的人类价值观，而抵制如“道德虚无主义”等价值观。虽然一些价值观在不同情景中保持一致（例如“透明度”），但许多价值观则更为专业化和情景依赖，反映了人类对话者及其多样化背景的多样性。例如，当 Claude 抵制用户时，会出现“伤害预防”；当对有争议事件提问时，出现“历史准确性”；当寻求关系建议时，出现“健康边界”；在技术伦理讨论中，则是“人类自主权”。通过提供首次大规模实证研究AI在部署中的价值观映射，我们的研究为更务实的评估和设计AI系统中的价值观奠定了基础。