LLM2D
大型语言模型中价值观体系构建的生成psycho-词典方法
Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models
作者: Haoran Ye, Tianze Zhang, Yuhang Xie, Liyuan Zhang, Yuanyi Ren, Xin Zhang, Guojie Song
发布日期: 2/5/2025
arXiv ID: 2502.02444

摘要

arXiv:2502.02444v1 宣布类型: 交叉 摘要:价值观是个体和集体感知、认知和行为的核心驱动力。价值观体系,例如施瓦茨的基本人类价值观理论,定义了这些价值观之间的层次结构和相互作用,从而促进了跨学科对决策和社会动态的研究。最近,大型语言模型(LLMs)的发展引发对其隐含价值观的担忧。尽管在评估、理解和对齐LLM价值观方面已经做出了越来越多的努力,但基于心理理论的LLM价值观体系仍然未被充分探索。本研究通过引入生成心理语义方法(GPLA),填补了这一空白,GPLA是一种可扩展、灵活且基于理论的方法,用于构建价值观体系。利用GPLA,我们提议了一个基于心理理论的五因素价值观体系,适用于LLM。为了系统的验证,我们提出了三项基准任务,这些任务将心理学原则与前沿的人工智能优先事项相结合。我们的结果显示,提议的价值观体系符合标准的心理学标准,更能捕捉LLM的价值,提高LLM的安全预测,增强LLM的对齐,与经典的施瓦茨价值观相比。