摘要
arXiv:2504.04994v2 通知类型: replace-cross
摘要: 尽管大型语言模型(LLMs)表现出色,但它们在编码价值观的驱动下可能会表现出无意的偏见和有害行为,这强调了理解其背后的价值机制的紧迫性。然而,当前的研究主要通过外部响应来评估这些价值,重点关注人工智能安全,缺乏可解释性,并未能在实际情境中评估社会价值。在本文中,我们提出了一种名为ValueExploration的新框架,旨在从神经元层面探索LLMs中受行为驱动的国家社会价值观机制。作为案例研究,我们集中在中华社会价值观上,并首先构建了C-voice,一个大规模双语基准,用于识别和评估LLMs中的中华社会价值观。利用C-voice,我们随后根据激活差异识别并定位负责编码这些价值观的神经元。最后,通过禁用这些神经元,我们分析了模型行为的转变,揭示了价值观如何影响LLM决策的内部机制。通过对四个代表性LLMs进行的大量实验验证了我们框架的有效性。基准和代码将可供使用。