LLM2D
遵循价值的低语:解析以价值为导向行为背后的大语言模型神经机制
Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs
作者: Ling Hu, Yuemei Xu, Xiaoyang Gu, Letao Han
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04994v1

摘要

arXiv:2504.04994v1 类型: cross 摘要:尽管大型语言模型(LLMs)表现出色,但它们可能会表现出由编码值驱动的未预见的偏见和有害行为,这凸显了我们需要理解其背后的价值机制的紧迫性。然而,目前的研究主要通过外部响应来评估这些价值,并集中在人工智能安全上,缺乏解释性,未能在实际社会情境中评估社会价值。在本文中,我们提出了一种名为ValueExploration的新框架,旨在在神经元层面探索LLMs中国家社会价值观的行为驱动机制。作为一项案例研究,我们关注中国社会价值观,并首先构建了C-voice,这是一个大规模双语基准,用于识别和评估LLMs中的中国社会价值观。通过利用C-voice,我们然后根据激活差异识别并定位负责编码这些价值观的神经元。最后,通过禁用这些神经元,我们分析了模型行为的变化,揭示了价值观如何影响LLM决策的内部机制。在四个代表性LLMs上的广泛实验验证了该框架的有效性。基准数据集和代码将可供使用。