LLM2D

摘要

arXiv:2504.04994v1 类型: cross 摘要：尽管大型语言模型（LLMs）表现出色，但它们可能会表现出由编码值驱动的未预见的偏见和有害行为，这凸显了我们需要理解其背后的价值机制的紧迫性。然而，目前的研究主要通过外部响应来评估这些价值，并集中在人工智能安全上，缺乏解释性，未能在实际社会情境中评估社会价值。在本文中，我们提出了一种名为ValueExploration的新框架，旨在在神经元层面探索LLMs中国家社会价值观的行为驱动机制。作为一项案例研究，我们关注中国社会价值观，并首先构建了C-voice，这是一个大规模双语基准，用于识别和评估LLMs中的中国社会价值观。通过利用C-voice，我们然后根据激活差异识别并定位负责编码这些价值观的神经元。最后，通过禁用这些神经元，我们分析了模型行为的变化，揭示了价值观如何影响LLM决策的内部机制。在四个代表性LLMs上的广泛实验验证了该框架的有效性。基准数据集和代码将可供使用。