摘要
arXiv:2502.02444v1 宣布类型: 交叉
摘要:价值观是个体和集体感知、认知和行为的核心驱动力。价值观体系,例如施瓦茨的基本人类价值观理论,定义了这些价值观之间的层次结构和相互作用,从而促进了跨学科对决策和社会动态的研究。最近,大型语言模型(LLMs)的发展引发对其隐含价值观的担忧。尽管在评估、理解和对齐LLM价值观方面已经做出了越来越多的努力,但基于心理理论的LLM价值观体系仍然未被充分探索。本研究通过引入生成心理语义方法(GPLA),填补了这一空白,GPLA是一种可扩展、灵活且基于理论的方法,用于构建价值观体系。利用GPLA,我们提议了一个基于心理理论的五因素价值观体系,适用于LLM。为了系统的验证,我们提出了三项基准任务,这些任务将心理学原则与前沿的人工智能优先事项相结合。我们的结果显示,提议的价值观体系符合标准的心理学标准,更能捕捉LLM的价值,提高LLM的安全预测,增强LLM的对齐,与经典的施瓦茨价值观相比。