LLM2D

摘要

arXiv:2504.04994v2 通知类型: replace-cross 摘要: 尽管大型语言模型（LLMs）表现出色，但它们在编码价值观的驱动下可能会表现出无意的偏见和有害行为，这强调了理解其背后的价值机制的紧迫性。然而，当前的研究主要通过外部响应来评估这些价值，重点关注人工智能安全，缺乏可解释性，并未能在实际情境中评估社会价值。在本文中，我们提出了一种名为ValueExploration的新框架，旨在从神经元层面探索LLMs中受行为驱动的国家社会价值观机制。作为案例研究，我们集中在中华社会价值观上，并首先构建了C-voice，一个大规模双语基准，用于识别和评估LLMs中的中华社会价值观。利用C-voice，我们随后根据激活差异识别并定位负责编码这些价值观的神经元。最后，通过禁用这些神经元，我们分析了模型行为的转变，揭示了价值观如何影响LLM决策的内部机制。通过对四个代表性LLMs进行的大量实验验证了我们框架的有效性。基准和代码将可供使用。