LLM2D

摘要

arXiv:2502.05489v1 声明类型：交叉摘要：大规模语言模型（LLMs）在从文本预测人类情绪方面展现了令人鼓舞的能力。然而，这些模型处理情绪刺激的机制仍然 largely 未被探索。本研究通过探讨自回归 LLM 如何推断情绪，填补了这一空白，表明情绪表示在模型中特定区域具有功能性定位。我们的评估包括了多样化的模型家族和规模，并通过稳健性检查得到了支持。然后，我们通过引用认知评估理论，一种广泛认可的心理框架，表明识别出的表示是心理上合理的，该理论认为情绪源自对环境刺激的评估（认知）。通过在构想出的评估概念上进行因果干预，我们引导生成，并表明生成物与理论及直觉的预期相符。这项工作突显了一种新的因果干预方法，可以精确塑造情绪性文本生成，有可能在敏感的情感领域提高安全性和对齐。