LLM2D

摘要

arXiv:2502.02444v1 宣布类型: 交叉摘要：价值观是个体和集体感知、认知和行为的核心驱动力。价值观体系，例如施瓦茨的基本人类价值观理论，定义了这些价值观之间的层次结构和相互作用，从而促进了跨学科对决策和社会动态的研究。最近，大型语言模型（LLMs）的发展引发对其隐含价值观的担忧。尽管在评估、理解和对齐LLM价值观方面已经做出了越来越多的努力，但基于心理理论的LLM价值观体系仍然未被充分探索。本研究通过引入生成心理语义方法（GPLA），填补了这一空白，GPLA是一种可扩展、灵活且基于理论的方法，用于构建价值观体系。利用GPLA，我们提议了一个基于心理理论的五因素价值观体系，适用于LLM。为了系统的验证，我们提出了三项基准任务，这些任务将心理学原则与前沿的人工智能优先事项相结合。我们的结果显示，提议的价值观体系符合标准的心理学标准，更能捕捉LLM的价值，提高LLM的安全预测，增强LLM的对齐，与经典的施瓦茨价值观相比。