摘要
arXiv:2504.11671v1 宣布类型: 新
摘要: 大型语言模型(LLMs)越来越多地作为类人类决策代理在社会科学和实际应用中发挥作用。这些LLM代理通常被赋予类人类的人物,并置于真实生活的情境中。然而,这些人物和情境如何影响LLM的行为仍然缺乏探索。本研究提出了并测试了一种方法,用于在“分配者游戏”(Dictator Game——一个经典的关于公平性与利他行为的行为实验)中探测、量化和修改LLM的内部表示。我们从LLM的内部状态中提取“变量变化向量”(例如,“男性”到“女性”)。在模型推理过程中操纵这些向量可以显著改变变量与模型决策之间的关系。这种方法为研究和调节社会概念如何在基于变换器的模型中被编码和设计提供了一个原则性的途径,对于对齐、去偏见以及在学术和商业应用中设计用于社会模拟的AI代理具有重要意义。