LLM2D

摘要

arXiv:2502.02444v1 声明类型: cross 摘要: 原则是个体和集体感知、认知和行为的核心驱动力。价值体系，如斯瓦茨的基本人类价值观理论，界定了这些价值观之间的层级和相互作用，使跨学科研究决策和社会动态成为可能。近年来，大型语言模型（LLMs）的兴起引发了对其难以捉摸的内在价值观的担忧。尽管在评估、理解和对齐LLM价值观方面付出了越来越多的努力，但心理学依据的LLM价值体系仍处于未被充分探索的状态。本研究通过引入生成性心理语义方法（GPLA），填补了这一空白，GPLA是一种可扩展、可适应且理论依据的方法，用于构建价值体系。利用GPLA，我们提出了一种心理学依据的五因素价值体系，适用于LLM。为了系统验证，我们提出了三项基准任务，将心理学原则与前沿AI优先事项结合在一起。研究表明，所提出的价值体系达到了标准的心理学标准，更好地捕捉了LLM的价值，提高了LLM安全预测的精度，并增强了LLM的对齐性，相比经典的斯瓦茨价值观，表现更佳。