摘要
arXiv:2409.09586v2 宣告类型: replace-cross
摘要:随着人工智能系统的不断进步,确保这些系统与广泛的人群和社会价值观保持一致变得越来越重要。但如何捕捉基本的人类价值观,并评估人工智能系统与这些价值观的一致程度呢?我们引入了ValueCompass这一框架,该框架基于心理学理论和系统性回顾,用于识别和评估人类与人工智能系统的对齐情况。我们将ValueCompass应用于测量人类和大型语言模型(LLMs)在四个真实场景中的价值观对齐情况:协作写作、教育、公共服务和医疗保健。我们的研究发现,人类和LLMs之间存在着令人担忧的价值观不一致,例如,人类频繁支持的“国家安全”等价值观,却被LLMs广泛拒绝。我们还观察到不同场景下的价值观存在差异,这突显了情境感知型人工智能对齐策略的必要性。本研究提供了有关人类-人工智能对齐设计空间的宝贵见解,并为开发负责任地反映社会价值观和伦理的人工智能系统奠定了基础。