摘要
arXiv:2502.05489v1 声明类型:交叉
摘要:大规模语言模型(LLMs)在从文本预测人类情绪方面展现了令人鼓舞的能力。然而,这些模型处理情绪刺激的机制仍然 largely 未被探索。本研究通过探讨自回归 LLM 如何推断情绪,填补了这一空白,表明情绪表示在模型中特定区域具有功能性定位。我们的评估包括了多样化的模型家族和规模,并通过稳健性检查得到了支持。然后,我们通过引用认知评估理论,一种广泛认可的心理框架,表明识别出的表示是心理上合理的,该理论认为情绪源自对环境刺激的评估(认知)。通过在构想出的评估概念上进行因果干预,我们引导生成,并表明生成物与理论及直觉的预期相符。这项工作突显了一种新的因果干预方法,可以精确塑造情绪性文本生成,有可能在敏感的情感领域提高安全性和对齐。