LLM2D
大型语言模型中情绪推断的机理可解释性
Mechanistic Interpretability of Emotion Inference in Large Language Models
作者: Ala N. Tak, Amin Banayeeanzade, Anahita Bolourani, Mina Kian, Robin Jia, Jonathan Gratch
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05489v1

摘要

arXiv:2502.05489v1 声明类型:交叉 摘要:大规模语言模型(LLMs)在从文本预测人类情绪方面展现了令人鼓舞的能力。然而,这些模型处理情绪刺激的机制仍然 largely 未被探索。本研究通过探讨自回归 LLM 如何推断情绪,填补了这一空白,表明情绪表示在模型中特定区域具有功能性定位。我们的评估包括了多样化的模型家族和规模,并通过稳健性检查得到了支持。然后,我们通过引用认知评估理论,一种广泛认可的心理框架,表明识别出的表示是心理上合理的,该理论认为情绪源自对环境刺激的评估(认知)。通过在构想出的评估概念上进行因果干预,我们引导生成,并表明生成物与理论及直觉的预期相符。这项工作突显了一种新的因果干预方法,可以精确塑造情绪性文本生成,有可能在敏感的情感领域提高安全性和对齐。